ITBear旗下自媒体矩阵:

阿里Qwen2.5-Max大模型竞技场夺魁,中国AI实力获赞快速赶超

   时间:2025-02-05 02:33:03 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在近日的大模型竞技场中,一款来自中国的AI模型引起了广泛关注。这款名为Qwen2.5-Max的模型,由阿里巴巴公司推出,成功超越了多个国际知名模型,包括DeepSeek-V3、Claude 3.5 Sonnet以及Llama 3.1 405B等,以总分1332的优异成绩,在总榜上占据了第七名的位置。

Qwen2.5-Max的出色表现,尤其是在编程和数学领域,更是让人眼前一亮。在这些方面,它不仅与满血o1、DeepSeek-R1并列第一,还获得了用户的高度评价。据亲身使用过的网友反馈,Qwen的表现相较于其他模型更为稳定,甚至有人预测,它很快将取代硅谷的普通模型。

Chatbot Arena作为由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,通过用户盲测和真实对话体验对模型能力进行投票。这一平台被认为是全球顶级大模型的最权威竞技场。Qwen2.5-Max不仅在综合榜单上取得了优异成绩,还在新开的网页应用开发WebDev榜单上冲进了前十,展示了其在多个领域的全面实力。

LMSYS官方对Qwen2.5-Max的表现给予了高度评价,认为中国AI正在快速缩小与国际领先水平的差距。在具体的能力测试中,Qwen2.5-Max在逻辑性较强的数学和代码任务中,成绩超过了o1-mini,与满血o1和DeepSeek-R1并列第一。值得注意的是,在数学榜单上并列第一的模型中,Qwen2.5-Max是唯一一个非推理模型。

Qwen2.5-Max在复杂提示词任务中的表现也十分出色,与o1-preview并列第二。在英文环境下,甚至可以排到第一,与o1-preview、DeepSeek-R1等模型平起平坐。同时,它在多轮对话能力上与DeepSeek-R1并列第一,长文本处理能力排行第三,超过了o1-preview。

阿里巴巴还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。在指令模型的对比中,Qwen2.5-Max在Arena-Hard、MMLU-Pro等基准测试中,与GPT-4o和Claude 3.5-Sonnet处于近似或更高的水准。在开源的基座模型对比中,Qwen2.5-Max的成绩全面超过了DeepSeek-V3,并遥遥领先于Llama 3.1-405B。在base model的对比中,Qwen2.5-Max也在大多数基准测试中展现出了显著优势。

Qwen2.5-Max上线后,大量网友进行了实测,发现其在代码、推理等方面的表现尤为突出。例如,让Qwen2.5-Max用Java写一个象棋游戏,它不仅能快速生成代码,还具备Artifacts功能,可以立刻开玩。在复杂提示词的推理问题上,Qwen2.5-Max也展现出了快速准确的特点,能够在短时间内完成全部推理过程,并给出清晰的结论。

目前,Qwen2.5-Max已在Qwen Chat平台上线,用户可免费体验。企业用户则可以在阿里云百炼调用Qwen2.5-Max模型的API,享受这一先进AI技术带来的便利。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version