阿里巴巴近日正式推出了其通义千问家族的最新成员——Qwen2.5-Omni-7B,这是一款具备端到端多模态处理能力的旗舰模型。该模型能够即时处理包括文本、图像、音频和视频在内的多种输入形式,并以实时流式的方式输出文本与自然语音合成内容。
Qwen2.5-Omni-7B已在Hugging Face、魔搭、DashScope等平台以Apache 2.0开源协议发布,其相关论文也全面开源,向公众详细揭示了背后的技术创新。用户不仅能够通过Demo体验互动功能,还能在Qwen Chat平台上像进行电话和视频通话一样与Qwen进行实时交流。
千问团队表示,Qwen2.5-Omni采用了创新的Thinker-Talker架构,这一架构不仅支持跨模态理解,还能实现流式文本和语音响应,同时支持分块输入和即时输出。在与同规模模型的基准测试中,Qwen2.5-Omni展现出了显著优势,超越了包括Gemini 1.5 Pro和GPT-4o-mini在内的闭源模型。
在音频处理能力上,Qwen2.5-Omni相较于同体积的Qwen2-Audio更为出色,与Qwen2.5-VL-7B保持相当水平。在权威的多模态理解测试OmniBench上,Qwen2.5-Omni更是取得了SOTA表现,超越了Gemini 1.5 Pro,提升幅度高达30.8%。
Qwen2.5-Omni在端到端语音指令跟随方面的表现与文本输入处理同样出色,在MMLU通用知识理解和GSM8K数学推理等基准测试中均取得了不俗的成绩。Qwen2.5-Omni在现实世界的多模态场景中也有着广泛的应用潜力。
例如,在烹饪场景中,用户只需向Qwen2.5-Omni展示食材,它就能迅速提供食谱建议。Qwen2.5-Omni还能听懂音乐,分析歌曲风格并提出创作建议。在绘画时,它能根据草图判断绘画内容并提供构图建议。无论是户外天气判断,还是学习辅助解题和论文阅读,Qwen2.5-Omni都展现出了强大的通用多模态能力。
Qwen2.5-Omni的Thinker模块负责处理多模态输入,生成高层语义表征及对应文本内容,而Talker模块则负责以流式方式接收Thinker的输出,并流畅合成语音。这种Thinker-Talker双核架构,结合创新的TMRoPE位置编码技术,使得Qwen2.5-Omni在多模态理解基准测试中取得了卓越表现。
在OmniBench测试中,Qwen2.5-Omni的得分为56.13%,远超第二名的42.91%。在视频到文本任务上,Qwen2.5-Omni也超越了原本的开源SOTA模型和GPT-4o-mini。在其他基准测试中,如语音识别、翻译、音频理解、图像推理、视频理解以及语音生成等方面,Qwen2.5-Omni的成绩均超过了Qwen家族的其他单模态模型。
Qwen2.5-Omni的推出,无疑为阿里巴巴在多模态人工智能领域树立了新的里程碑。随着技术的不断进步,Qwen2.5-Omni未来有望在更多领域发挥重要作用,为用户提供更加智能、便捷的服务。