近日,清华大学人工智能研究院的一项重大创新引发了业界的广泛关注。该研究院副院长、同时也是生数科技创始人及首席科学家的朱军,正式推出了名为Vidu Q1的高可控视频大模型,这一成果被标榜为行业内首个具备高度可控性的AI视频大模型。
据官方介绍,Vidu Q1在多个关键技术领域实现了显著突破,尤其是在多主体细节可控性、音效同步控制以及画质增强方面。以多主体细节可控为例,该模型不仅能够基于语义指令进行操作,还能融入参考图的视觉信息,进一步实现对视频中多个主体位置、大小、运动轨迹等属性的精确控制。无论是角色的出场顺序、退场方式,还是坐立姿态、行动路线,Vidu Q1都能进行细致入微的调整,以满足用户的多样化需求。
在音效同步控制方面,Vidu Q1同样表现出色。它能够根据视频环境的变化和画面的切换,自动生成相应的音效,并实现对音效长短区间和出现时间点的精准控制。例如,在视频的前两秒内,可以精确设置风声作为背景音效,而在接下来的三到五秒内,则切换为雨声,从而营造出更加真实、生动的视听体验。
这一创新成果的问世,标志着AI视频生成技术迈上了一个新的台阶。Vidu Q1的高可控性不仅为用户提供了更加灵活多样的视频创作方式,也为视频制作、动画制作、广告创意等行业带来了全新的可能性。可以预见,随着该技术的不断成熟和推广,它将在未来发挥更加重要的作用,推动相关行业的快速发展。