阿里云在视觉生成领域迈出了重要一步,近日宣布其视觉生成基座模型万相2.1(Wan)正式开源。这一消息在科技圈内引起了广泛关注,标志着阿里云在开源大模型战略上的又一重大进展。
万相2.1模型提供了两种参数规模供用户选择。140亿参数的专业版模型,专为追求极致生成效果的专业人士设计;而13亿参数的轻量级模型,则在保证生成速度的同时,能够兼容所有消费级GPU,极大地降低了使用门槛。目前,这两个模型的全部推理代码和权重均已实现开源。
万相2.1在性能上表现出色,多个基准测试中的成绩均优于现有的开源模型和商业解决方案。特别是在权威评测集VBench中,140亿参数的专业版模型以总分86.22%的成绩,大幅超越了Sora、Luma、Pika等国内外知名模型,稳居榜首。这一成绩充分证明了万相2.1在视觉生成领域的领先地位。
除了卓越的性能,万相2.1还具备多项实用功能。它支持文生视频、图生视频、视频编辑、文生图和视频生音频等多种任务,满足了用户在不同场景下的需求。万相2.1还是首个能够生成中英文文本的视频模型,无需外部插件即可实现文字生成,进一步提升了其实用性。
万相2.1还配备了强大的视频VAE——Wan-VAE。该VAE提供了卓越的效率和性能,能够对任意长度的1080P视频进行编码和解码,同时保留时间信息。这一功能使得万相2.1在处理复杂视频任务时更加得心应手。
在生成能力方面,万相2.1同样表现出色。它能够还原复杂运动表现、遵循物理规律,并生成影院级别的画质。同时,万相2.1还支持中英文艺术字生成,使得生成的视频更加丰富多彩。阿里云还公开了多个万相2.1生成的视频Demo,展示了其在不同场景下的应用效果。
万相2.1的开源,标志着阿里云在开源大模型战略上取得了又一重大突破。从最早开源的Qwen模型到如今的全模态、全尺寸开源,阿里云不断推动开源生态的发展,为科技行业注入了新的活力。未来,随着更多开源模型的涌现,科技行业将迎来更加繁荣的发展局面。