腾讯混元近期在其官方微信公众号上宣布了一项重大进展,推出了图生视频模型,并向公众开放源代码。这一创新技术不仅为用户带来了对口型与动作驱动等趣味玩法,还实现了背景音效的自动生成以及2K高清视频的轻松制作。
借助图生视频模型,用户只需上传一张静态图片,并简单描述期望的画面动态效果和镜头运动轨迹,混元便能根据指令将图片转化为一段生动的5秒短视频,并自动匹配合适的背景音效。更有趣的是,用户上传人物图片并输入希望“对口型”的文字或音频后,图片中的人物竟能“开口说话”或“欢快歌唱”。利用“动作驱动”功能,用户还能一键生成与他人同款的跳舞视频。
体验这一前沿技术的渠道十分便捷,用户只需访问混元AI视频官网即可开始创作。而对于企业和开发者而言,他们可以在腾讯云平台上申请API接口,将这一技术融入自己的产品或服务中。
此次开源的图生视频模型,是腾讯混元在文生视频模型开源基础上的又一力作。该模型的总参数量高达130亿,广泛应用于写实视频、动漫角色以及CGI角色等多种场景的视频生成。开源内容涵盖了模型权重、推理代码以及LoRA训练代码,支持开发者基于混元训练专属的LoRA等衍生模型。目前,这一模型已在Github、HuggingFace等主流开发者社区上线,供开发者下载并体验。
据混元开源技术报告显示,其视频生成模型展现出极高的灵活性和扩展性。图生视频和文生视频在相同数据集上进行预训练,模型在保持超写实画质、流畅演绎大幅度动作以及原生镜头切换等特性的同时,还能捕捉到丰富的视觉和语义信息。结合图像、文本、音频和姿态等多种输入条件,模型实现了对生成视频的多维度精准控制。
截至目前,腾讯混元的开源系列模型已全面覆盖文本、图像、视频和3D生成等多个领域,在Github平台上累计吸引了超过2.3万名开发者的关注和点赞。