阿里巴巴集团于本周二震撼发布了其旗舰人工智能模型Qwen 3,标志着AI领域的一次重大飞跃。这款新一代模型以卓越的混合推理能力为核心,重新定义了AI的边界。
Qwen3-235B-A22B版本拥有2350亿参数,但在运行时仅需激活220亿参数,这一设计使其参数规模仅为DeepSeek-R1的三分之一左右,却能在性能上超越DeepSeek-R1和OpenAI-o1等顶尖模型,成为全球最强大的开源模型。
这一发布正值中国AI领域竞争激烈之际,本土初创企业DeepSeek的迅速崛起为市场增添了新的活力。今年早些时候,DeepSeek宣称能以更低的成本提供高性能模型,挑战西方竞争对手。
与此同时,中国搜索引擎巨头百度也不甘落后,于上周五推出了Ernie 4.5 Turbo和针对推理优化的Ernie X1 Turbo模型,进一步加剧了市场竞争。
阿里巴巴的Qwen 3巧妙地将传统AI任务与先进的动态推理相结合,为应用和软件开发者提供了一个更加灵活高效的平台。今年年初,在DeepSeek取得突破后不久,阿里巴巴迅速推出了Qwen 2.5-Max模型,并宣称其性能卓越。
Qwen 3基于36万亿字节的庞大数据集进行训练,并在训练后阶段经历了多轮强化学习。它实现了快速思考与慢速思考模式的无缝切换,并在推理、指令遵循、工具使用和多语言能力等方面实现了显著提升,为国内外开源模型树立了新的性能标杆。
Qwen 3系列共包含八个模型,其中包括两个参数分别为300亿和2350亿的MoE(专家混合)模型,以及六个参数从0.6亿到320亿不等的密集模型。每个模型在其参数规模类别中均达到了开源模型的顶尖水平。
值得注意的是,Qwen3的300亿参数MoE模型在模型效率上实现了超过10倍的提升,仅需激活30亿参数即可媲美上一代Qwen2.5-32B模型的性能。同时,Qwen3的密集模型继续突破极限,以一半的参数数量实现了高性能。例如,Qwen3的320亿版本在性能上超越了Qwen2.5-72B模型。
4月成为大型模型发布密集的一个月。OpenAI推出了GPT-4.1 o3和o4 mini系列模型,谷歌发布了Gemini 2.5 Flash Preview混合推理模型,而Doubao则宣布了其1.5·Deep Thinking模型。行业内的其他主要玩家也开源或更新了众多模型。甚至有传言称DeepSeek R2即将发布,尽管这些报道大多仍属猜测。
无论DeepSeek R2是否发布,Qwen3已经抢占了先机,成为大型模型“普及化”的真正起点。
Qwen 3模型支持两种独特的推理模式:慢速思考模式和快速思考模式。在慢速思考模式下,模型进行逐步推理,经过深思熟虑后给出最终答案,适用于解决复杂问题。而在快速思考模式下,模型能够迅速给出几乎即时的回应,适合处理简单且需要快速响应的问题。
所有Qwen 3模型均为混合推理模型,在中国尚属首次。这种创新设计将“快速思考”和“慢速思考”整合到单个模型中。对于简单任务,它可以以较低的计算能力提供即时答案;而对于复杂问题,则可以进行多步“深度思考”,显著降低了计算资源消耗。
Qwen 3的API允许用户自定义“思考预算”(即用于深度推理的最大令牌数),使不同层次的思考过程能够灵活满足各种场景下AI应用的不同性能和成本要求。例如,40亿参数的模型非常适合移动设备,80亿参数的模型可以在计算机和汽车系统上流畅运行,而320亿参数的模型则备受大型企业部署的青睐。
在衡量数学问题解决能力的AIME25评估中,Qwen 3取得了81.5分的优异成绩,刷新了开源模型的记录。在评估编码能力的LiveCodeBench评估中,Qwen 3超过了70分的门槛,超越了Grok3。在评估与人类偏好一致性的ArenaHard评估中,Qwen 3获得了95.6分的高分,超过了OpenAI-o1和DeepSeek-R1。
尽管性能显著提升,但Qwen 3的部署成本却大幅下降。Qwen 3的全功率版本仅需四台H20 GPU即可部署,且内存使用量仅为类似性能模型的三分之一。
Qwen-3模型支持119种语言和方言。目前,这些模型已在Apache 2.0许可下开源,并可在Hugging Face、ModelScope和Kaggle等平台上获得。
阿里巴巴还建议使用SGLang和vLLM等框架部署模型。对于本地使用,支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。
Qwen-3还专注于智能代理和大型语言模型的应用。在评估代理能力的BFCL评估中,Qwen-3取得了70.8分的新高分,超越了Gemini2.5-Pro和OpenAI-o1等顶级模型。这一突破显著降低了代理有效利用工具的门槛。
Qwen-3原生支持MCP协议,并具有强大的函数调用能力。结合包括预建工具调用模板和解析器在内的Qwen-Agent框架,它极大地降低了编码复杂性,使代理能够在手机和计算机上高效运行。
Qwen-3在预训练方面相较于Qwen-2.5有了显著扩展。Qwen-2.5基于18万亿令牌进行预训练,而Qwen-3则几乎将这一数字翻倍,达到了约36万亿令牌。
为了构建这一庞大的数据集,Qwen团队不仅从互联网上收集数据,还从PDF文档中提取信息。例如,使用Qwen-2.5-VL从文档中提取文本,并使用Qwen-2.5进一步提高提取内容的质量。为了增加数学和编码数据的数量,Qwen团队利用Qwen-2.5-Math和Qwen-2.5-Coder等专用模型合成数据,包括教科书、问答对和代码片段等多种格式。
预训练过程分为三个阶段。在第一阶段(S1),模型在超过30万亿令牌和4K令牌上下文长度的基础上进行预训练,为模型提供了基础语言技能和通用知识。在第二阶段(S2),Qwen团队通过增加知识密集型数据(如STEM、编程和推理任务)的比例来改进数据集,并对模型进行了额外的5万亿令牌预训练。
在最终阶段,Qwen团队使用高质量的长上下文数据将上下文长度扩展到32K令牌,确保模型能够有效处理更长的输入。
由于模型架构的改进、训练数据的增加以及训练方法的优化,Qwen3密集基础模型的性能与参数更多的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base的性能与Qwen2.5-3B/7B/14B/32B/72B-Base相当。值得注意的是,在STEM、编码和推理等领域,Qwen3密集基础模型甚至超越了更大规模的Qwen2.5模型。
至于Qwen3的MoE基础模型,它们在性能上与Qwen2.5的密集基础模型相当,但激活的参数仅为10%。这大大节省了训练和推理成本。
在训练后阶段,为了开发一款同时具备推理和快速响应能力的混合模型,Qwen团队实施了四阶段训练过程,包括:(1)长推理链的冷启动,(2)长推理链的强化学习,(3)推理模式的整合,以及(4)通用强化学习。