【ITBEAR】近期,中国AI视频赛道呈现出井喷式发展,多个厂商如快手可灵、Minimax海螺AI、生数科技Vidu及智谱清影纷纷发布新产品,这些AI视频产品在全球范围内广受认可。国外用户甚至表示,由于国内产品的出色表现,他们不再需要Sora,并设法使用中国手机号体验国内AI产品。
尤为引人注目的是字节的最新产品——豆包·视频生成模型。在9月24日的火山引擎AI创新巡展深圳站上,该模型与Seaweed模型一同发布,其运镜和转场效果令人震撼,被视为AI视频领域的断层式领先。
相较于其他AI视频产品,豆包·视频生成模型在语义理解和一致性方面表现出色。测试中,它成功完成了复杂的场景和镜头变化,如深夜巷子中的浓烟、地面污水、老鼠走动,以及雪人戴礼帽坐在垃圾桶上喝啤酒等场景,且画面通透,所有细节都精准呈现。
豆包模型还展示了其在动画教育领域的潜力,如生成夜晚森林中的篝火派对场景,其中穿着超人服装的小猪在打碟,其他小动物跟随节奏摇摆,画面中所有动物的动作都高度协调。
在与Sora的对比测试中,豆包模型同样表现出色。它解决了Sora在角色一致性和语义理解方面的问题,如广场中气球人的运动方向和画面内容的准确呈现,以及人脸和玩滑板画面的合理生成。
字节在AI视频技术领域的持续投入和创新,使其在这一领域取得了显著成果。从早期的Make Pixels Dance项目,到如今的豆包·视频生成模型,字节的每一步都走得稳健而有力。相比之下,Sora由于产品未完全开发完成,其在市场上的表现显得有些乏力。
豆包·视频生成模型的成功,得益于其采用的DiT架构,这一架构结合了扩散模型和Transformer,尽管在初期因其高门槛而遭到质疑,但现在看来,这一选择无疑是正确的。通过不断优化和定制化技术,豆包模型在视频生成的稳定性、泛化能力以及多镜头一致性方面都表现出色。
总的来说,中国AI视频赛道的快速发展,不仅为全球用户带来了更多优质的选择,也推动了整个行业的进步。而字节的豆包·视频生成模型,无疑是这一进程中的一颗璀璨明星。