腾讯近期宣布了一项重大技术突破,其混元大模型正式上线并开源了一项引人注目的能力——文生视频。这款大模型拥有高达130亿的参数量,并支持中英文双语输入,为用户带来了前所未有的视频生成体验。
在腾讯的展示中,一款由混元大模型生成的视频令人印象深刻。视频中,以肩摄视角切入,清晨的阳光透过纱帘温柔地洒落在一位老爷爷身上。他正专注地在木工台前雕刻,摄影机缓缓推进,特写镜头下,老爷爷布满皱纹的手指与纷飞的木屑清晰可见。背景中,老房间内的木工工具整齐排列,墙上挂满了已完成的作品,整个画面充满了生活气息与岁月的痕迹。
腾讯官方宣称,这款混元视频生成大模型能够生成“超写实”的高质量视频,画面稳定且不易变形。尤其在涉及镜面或镜子场景的视频中,该模型能够实现镜面反射动作与外部场景的完全同步,光影反射效果也基本符合物理规律,使得生成的视频更加逼真。
另一段视频则展示了冲浪者在超大水管浪尖上起跳的壮观场景。摄影机从海浪内部穿越而出,捕捉到了阳光透过海水的瞬间,水花在空中形成了完美的弧线,冲浪板划过水面留下的轨迹清晰可见。最终画面定格在冲浪者穿越水帘的完美瞬间,令人叹为观止。
还有一段手持长焦镜头跟拍的视频,展现了磨砂金属车厢在高速行驶中留下的光带。隧道灯光断续闪过,映照出乘客若隐若现的侧脸。防护玻璃上的水珠随着速度扭曲变形,构建出一个充满神秘感与光影变化的城市地下迷宫。
据了解,腾讯混元视频生成大模型采用了先进的DiT架构,并适配了新一代文本编码器,以提升语义遵循能力。这使得模型能够更好地应对多个主体的描绘,实现更加细致的指令和画面呈现。
在腾讯元宝App中,用户已进入“AI应用”并选择“AI视频”功能,即可申请试用这一前沿技术。腾讯表示,本次开源包含了模型权重、推理代码、模型算法等完整模型内容,旨在为企业与个人开发者提供免费使用和开发生态插件的机会。