滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

多模态视频模型Vidu1.5：智能涌现，Scaling Law新起点？

时间：2024-11-22 14:08:35 来源：ITBEAR作者：雷峰网leiphone编辑：瑞雪 发表评论无障碍通道

【ITBEAR】在自然语言处理领域，一个显著的转折点正在显现：单纯的模型规模和数据量增加，似乎已触及性能提升的瓶颈。业界开始质疑，Scaling Law是否已走到尽头，低精度训练与推理是否正导致模型性能提升的边际效益不断递减。然而，这一挑战也为新的探索开辟了道路。

尽管Scaling Law在自然语言处理中显露出“力不从心”的迹象，但在多模态模型领域，它还未被真正验证。多模态数据因其复杂性，在训练规模上难以达到与自然语言处理相当的水平。然而，清华系大模型公司生数科技最新发布的Vidu 1.5，却为这一领域带来了新曙光。

Vidu 1.5通过持续的规模扩展（Scaling Up），在多模态领域实现了突破性的“奇点”时刻。它涌现出了“上下文能力”，能够理解和记忆输入的多主体信息，并展现出对复杂主体更精准的控制。无论是细节丰富的角色还是复杂的物体，通过上传不同角度的三张图片，Vidu 1.5都能确保单主体形象的高度一致。

不仅如此，Vidu 1.5还实现了多主体之间的一致性。用户可上传包含人物角色、道具物体、环境背景等多种元素的图像，Vidu能够将这些元素无缝融合，并实现自然交互。这一成就不仅彰显了Scaling Law在多模态领域的潜力，更体现了生数科技所采用的无微调、大一统技术架构的优越性。

回顾大语言模型的发展历程，从GPT-2到GPT-3.5的质变，同样实现了从预训练+特定任务微调方式到整体统一框架的突破。Vidu 1.5的推出，标志着多模态大模型也迎来了类似的GPT-3.5时刻。生数科技CTO鲍凡表示，他们从一开始就瞄准了通用多模态大模型的目标，并未在Sora等已有方案上亦步亦趋。

生数科技不仅在技术路线上具有先发优势，更具备持续突破的能力。Vidu与业界其他视频生成模型相比，已初步形成技术代差。这得益于其重新设计的底层架构，该架构将问题统一为视觉输入、视觉输出的patches，并采用单个网络统一建模变长的输入和输出。

实现主体一致性，是视频模型领域的一大难题。鲍凡比喻道，这好比制造一台性能卓越的发动机，虽然知道其重要性，但实现起来却困难重重。Vidu在主体一致性方面的成果，并非一蹴而就。从Vidu上线之初主打解决一致性问题，到逐步拓展到单主体及多主体控制的全面能力，每一步都凝聚了团队的智慧与汗水。

与其他仍采用预训练+LoRA微调方案的模型不同，Vidu采用的大一统架构，无需单独进行数据收集、标注和微调，仅需1到3张图就能输出高质量视频。这一架构不仅提高了效率，还避免了过拟合和特征不精准等问题。

随着高质量数据的持续投入和模型规模的扩大，Vidu 1.5在底层视频生成模型上也展现出了类似于大语言模型的智能涌现。例如，它能够融合不同主体，创造出全新的角色，这是之前未曾预料到的能力。Vidu 1.5在上下文能力和记忆能力方面也取得了显著提升，能够生成一致、连贯且有逻辑的视频内容。

生数科技接下来将继续沿着上下文能力这一主线进行迭代。鲍凡表示，随着模型上下文能力的提升，将为用户带来更大的想象空间。例如，通过输入电影切片，可以生成具有相似摄影技巧的视频片段；通过输入经典打斗动作的视频，可以生成打斗技巧精妙、画面精良的视频。

Vidu在上下文能力方面的迭代有着自己的节奏和规划。从初期仅能参考单一主体的面部特征，到现在能参考多个主体，未来还将实现参考拍摄技巧、运镜、调度等更多因素。这一过程中，参考对象从具体到抽象，要求和难度逐渐提升，但Vidu正稳步前行。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

百度AI战略成效初显，智能体+搜索打开长期增长新空间

11-22

苹果新版Siri大升级，2026年春上线，能否超越ChatGPT？

11-22

搜狗输入法12.0大升级，腾讯混元大模型加持，“输入即搜索”时代来临！

11-22

阶跃星辰登顶LiveBench，国产大模型实力超越国际主流

11-22

雷军乌镇峰会发言，手写稿曝光：满满修改痕迹见证互联网巨头思考深度

11-22

马斯克AI新宠xAI获50亿融资，估值飙升500亿！

11-22

敦煌网集团再获殊荣，2024鲸鸣奖彰显跨境电商卓越实力！

11-22

AI赋能外贸新时代：万亿市场蓝海如何把握？

阿里国际站从去年10月开始就上线生意助手以来，便通过智能发品和智能接待量的提升，将买家的询盘回复率提升26%，支付转化率提升了52%，为卖家带来了显著的增量生意机会；今年10月，又针对发品、接待、营销、合规…

11-22

星环科技携手共创新企，西安数治科技有限公司聚焦AI多项业务

11-22

集装箱跨运车革新之路：自动化、电动化等六大趋势引领未来

11-22

AI录音机NotePin实测：基础体验欠佳，大模型也难掩瑕疵

11-22

北大方正“网安智盾”科教活动收官，筑牢网络安全屏障育高技能人才

11-22

混合云成主流，2027年采用率将达90%，科技巨头如何布局抢占先机？

11-22

和鲸科技：赋能医学AI与临床研究，探索统计分析标准化新路径

11-22

RockAI：大模型如何从单体迈向群体智能，探索AI新未来？

11-22

点击查看更多 +

全站最新

22日短剧半日热度榜揭晓：《小福星》领跑，你追的剧上榜没？

首富钟睒睒痛批拼多多：低价陷阱正威胁中国产业未来？

羽绒服价格年年攀升，打工人直呼“穿不起”！

东方鑫源入主丰华股份赠51%农机股权，股价涨停，盈利能力待考

零跑C10再添世界级荣誉，荣获美国IDEA设计奖，设计实力获全球认可！

绿色航运新纪元！国能长江01轮甲醇动力首航启航

热门内容

本栏最新

苹果新版Siri大升级，2026年春上线，能否超越ChatGPT？

搜狗输入法12.0大升级，腾讯混元大模型加持，“输入即搜索”时代来临！

阶跃星辰登顶LiveBench，国产大模型实力超越国际主流

雷军乌镇峰会发言，手写稿曝光：满满修改痕迹见证互联网巨头思考深度

马斯克AI新宠xAI获50亿融资，估值飙升500亿！

敦煌网集团再获殊荣，2024鲸鸣奖彰显跨境电商卓越实力！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.