近期,腾讯元宝官方在微博上积极回应了用户的反馈,透露了即将上线的新功能——语音播报的暂停与续播能力。这一举措显示了腾讯元宝对用户需求的快速响应和改进决心。
与此同时,腾讯混元在科技领域也取得了新的突破。在3月6日,腾讯混元正式推出了图生视频模型,并宣布该模型将对外开源。伴随着这一消息的发布,对口型与动作驱动等新颖玩法也随之上线,用户甚至可以生成背景音效及2K高质量视频。
据详细介绍,图生视频模型的能力令人瞩目。用户只需上传一张图片,并简要描述画面如何运动、镜头如何调度等创意想法,腾讯混元即可根据这些指令,将静态图片转化为生动有趣的5秒短视频。更令人惊喜的是,这一过程还能自动匹配并添加背景音效,使得视频更加完整和吸引人。
不仅如此,图生视频模型还支持对口型和动作驱动功能。用户只需上传一张人物图片,并输入想要让图片中人物“说”或“唱”的文字或音频,图片中的人物就能仿佛被赋予了生命,开始“说话”或“唱歌”。而通过动作驱动功能,用户甚至可以一键生成与指定舞蹈动作相匹配的跳舞视频,为创作带来了更多可能。
目前,广大用户已经可以通过混元AI视频官网亲身体验这一创新技术。同时,企业和开发者也有机会在腾讯云平台上申请使用API接口,将图生视频模型集成到自己的产品或服务中,进一步拓展其应用场景和商业价值。
腾讯混元方面表示,此次开源的图生视频模型是其文生视频模型开源工作的进一步延续。该模型的总参数量达到了130亿,适用于多种类型的角色和场景,无论是写实视频制作、动漫角色生成,还是CGI角色制作,都能展现出出色的表现力和实用性。