ITBear旗下自媒体矩阵:

实测字节豆包视频生成模型:Sora画的饼,这回真的熟了?

   时间:2024-10-09 03:27:29 来源:ITBEAR作者:柳晴雪编辑:瑞雪 发表评论无障碍通道

【ITBEAR】近期,中国AI视频赛道呈现出井喷式发展,多个厂商如快手可灵、Minimax海螺AI、生数科技Vidu及智谱清影纷纷发布新产品,这些AI视频产品在全球范围内广受认可。国外用户甚至表示,由于国内产品的出色表现,他们不再需要Sora,并设法使用中国手机号体验国内AI产品。

尤为引人注目的是字节的最新产品——豆包·视频生成模型。在9月24日的火山引擎AI创新巡展深圳站上,该模型与Seaweed模型一同发布,其运镜和转场效果令人震撼,被视为AI视频领域的断层式领先。

相较于其他AI视频产品,豆包·视频生成模型在语义理解和一致性方面表现出色。测试中,它成功完成了复杂的场景和镜头变化,如深夜巷子中的浓烟、地面污水、老鼠走动,以及雪人戴礼帽坐在垃圾桶上喝啤酒等场景,且画面通透,所有细节都精准呈现。

豆包模型还展示了其在动画教育领域的潜力,如生成夜晚森林中的篝火派对场景,其中穿着超人服装的小猪在打碟,其他小动物跟随节奏摇摆,画面中所有动物的动作都高度协调。

在与Sora的对比测试中,豆包模型同样表现出色。它解决了Sora在角色一致性和语义理解方面的问题,如广场中气球人的运动方向和画面内容的准确呈现,以及人脸和玩滑板画面的合理生成。

字节在AI视频技术领域的持续投入和创新,使其在这一领域取得了显著成果。从早期的Make Pixels Dance项目,到如今的豆包·视频生成模型,字节的每一步都走得稳健而有力。相比之下,Sora由于产品未完全开发完成,其在市场上的表现显得有些乏力。

豆包·视频生成模型的成功,得益于其采用的DiT架构,这一架构结合了扩散模型和Transformer,尽管在初期因其高门槛而遭到质疑,但现在看来,这一选择无疑是正确的。通过不断优化和定制化技术,豆包模型在视频生成的稳定性、泛化能力以及多镜头一致性方面都表现出色。

总的来说,中国AI视频赛道的快速发展,不仅为全球用户带来了更多优质的选择,也推动了整个行业的进步。而字节的豆包·视频生成模型,无疑是这一进程中的一颗璀璨明星。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version