在北京市大兴区,一场聚焦全球化和人工智能的科技盛宴于2024年12月6日至7日盛大举行。这场名为2024T-EDGE创新大会暨钛媒体财经年会的活动,汇聚了全球科技和商业领域的精英,共同探讨企业全球化增长的新趋势,以及人工智能对全球各行业的深远影响。
在影视制作领域,一个长期存在的挑战是如何精准捕捉人物的面部、嘴型、表情和肢体动作,尤其是在视频生成过程中。细微的动作位移和差异都可能导致失真,而要达到好莱坞级别的影视效果,往往需要巨大的投入。然而,随着生成式AI技术的迅猛发展,这一难题正在被逐步攻克。
MARZ,一家著名的视觉效果(VFX)工作室和AI技术初创公司,于2023年8月推出了新一代AI视效产品——LipDub。这款产品的诞生,旨在解决影视配音中口型不同步的顽疾。在演讲中,LipDub的首席执行官Jonathan Bronfman详细介绍了这款产品的技术原理和应用场景。他透露,LipDub采用了三种方案来实现口形同步:直接对视频进行翻译、通过定制虚拟形象进行对话调整,以及通过一段语料实现角色的量身定制。
MARZ的AI研究团队由特拉维夫大学计算机科学系的知名教授Danny Cohen-Or领导,他是ACM研究员和Isaias Nizri视觉计算主席。Cohen-Or教授与西蒙弗雷泽大学的助理教授Ali Mahdavi-Amiri长期合作,共同领导了MARZ的AI研究。他们此前已成功开展了Vanity AI的研究,这是MARZ开发的第一个AI解决方案。Vanity AI能够通过AI美妆技术,针对人物面部皱纹进行年轻化处理,已在45多个好莱坞作品中使用。
Jonathan在演讲中指出,生成式AI技术已经演进到文生图、图生视频的阶段。对于营销人员和内容创作者来说,这意味着他们可以在极短的时间内生成视频内容,从而快速验证视频效果。然而,视频内容生成的挑战依然存在,即速度慢且成本高。但随着技术的进步,用户现在可以在几分钟内生成一段视频,并且同一段视频素材也可以反复使用。
LipDub的口形同步技术不仅适用于真人片段,还进一步扩展到了CG角色制作。Jonathan强调,好莱坞影视画面的要求不仅仅是口型同步,而是要确保对原始人物/角色表演进行1比1的还原,同时传递出饱满的情绪。为了实现这一目标,LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。
目前,LipDub已经宣布了beta版,并预计在今年年底取得新的进展。除了服务于好莱坞电影外,LipDub还扩展到了广告、在线教育、企业宣传片等多个领域。在在线教育视频场景中,LipDub能够营造出真实的听众体验,让人感觉就像是说话人自己的语言。LipDub还提供了初级和高级两种模式供用户选择,以满足不同需求。
在演讲的最后部分,Jonathan展示了LipDub的新功能——替换对话框(Replace Dialogue)。这一功能类似于文本到语音的转换,但更加灵活和准确。用户可以轻松修改视频中的对话内容,并确保跨语言转换时能够恰当地传递情感。