在人工智能领域的一次重大合作中,阶跃星辰与吉利汽车集团携手,向全球开发者宣布开源其合作开发的Step系列多模态大模型。这一系列包括两个重量级成员:阶跃Step-Video-T2V,作为全球参数量最大的开源视频生成模型,以及阶跃Step-Audio,行业内首款达到产品级标准的开源语音交互大模型。
两家公司在算法优化、算力支持和场景训练等方面深入合作,共同提升了多模态大模型的性能。此次开源行动不仅标志着中国在开源大模型领域的又一重大贡献,也预示着人工智能技术的进一步普及和发展。
吉利汽车集团通过构建包括芯片、软件操作系统、数据和卫星网在内的端到端自研体系,已经在智能驾驶和智能座舱领域取得了显著进展。吉利汽车集团CEO淦家阅表示,吉利自研的星睿AI大模型与阶跃Step系列大模型的深度融合,将为用户带来更加智能和高端的出行体验。
阶跃星辰的创始人兼CEO姜大昕强调,实现通用人工智能(AGI)是全球开发者的共同目标。此次开源,不仅是为了分享技术成果,更是为了与全球开发者共同探索多模态模型的技术边界,推动其在产业中的落地应用。
阶跃Step-Video-T2V模型凭借其300亿的参数量,能够生成204帧、540P分辨率的高质量视频,确保了视频内容的高信息密度和一致性。用户已经在跃问平台体验到了该模型强大的视频生成能力,从复杂运动到美感人物,从基础文字生成到镜头语言,都展现出极高的精准度和创造力。
为了全面评测开源视频生成模型的性能,阶跃星辰还发布了新的基准数据集Step-Video-T2V-eval,包含128条源于真实用户的中文评测问题,涵盖多个内容类别。评测结果显示,阶跃Step-Video-T2V在指令遵循、运动平滑性、物理合理性和美感度等方面均优于市面上的其他开源视频模型。
阶跃Step-Audio作为行业内首个产品级开源语音交互模型,能够根据场景需求生成不同情绪、方言、语种和个性化风格的表达,与用户进行自然对话。该模型在影视娱乐、社交和游戏等行业中具有广泛的应用前景。在多个主流公开测试集中,阶跃Step-Audio的性能均位居第一,特别是在汉语水平考试六级评测中表现突出,被誉为“最懂中国话的开源语音交互大模型”。
鉴于语音对话测试集的缺失,阶跃星辰自建并开源了多维度评估体系Stepeval-Audio-360基准测试。该测试从多个维度对开源语音模型进行全面测评,结果显示阶跃Step-Audio的模型能力十分均衡,且在各个维度上均超过此前市面上效果最佳的开源语音模型。
此次开源行动不仅展示了阶跃星辰和吉利汽车集团在人工智能领域的深厚实力,也为全球开发者提供了宝贵的资源和平台,共同推动人工智能技术的创新和发展。