【ITBEAR】8月15日消息,近日,阿里巴巴旗下的通义千问宣布开源Qwen2-Audio系列中的两个重要模型:Qwen2-Audio-7B与Qwen2-Audio-7B-Instruct。这一举措标志着音频语言模型领域的又一重大进展。
Qwen2-Audio作为一款大规模音频语言模型,具备处理各类音频信号输入的能力,并能根据用户的语音指令执行音频分析或直接以文本形式作出响应。它提供了两种独特的音频交互模式:一种是语音聊天模式,用户可以在无需文本输入的情况下,自由地与Qwen2-Audio进行语音互动;另一种是音频分析模式,用户可以在互动过程中同时提供音频和文本指令,以便对音频进行深入分析。
据ITBEAR了解,官方已在多个基准数据集上对Qwen2-Audio进行了全面测试,结果显示,该模型在性能上超越了先前的最佳模型,展现了其在音频处理领域的强大实力。
为了方便用户体验和进一步的研究,通义千问提供了以下相关链接:
- 试用链接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo- 论文地址:https://arxiv.org/abs/2407.10759- 评估标准:https://github.com/OFA-Sys/AIR-Bench- 开源代码:https://github.com/QwenLM/Qwen2-Audio
这些链接的提供,无疑将为广大用户和研究人员带来极大的便利,进一步推动音频语言模型技术的发展与应用。