ITBear旗下自媒体矩阵:

Qwen3重磅发布:双思考模式切换,大型语言模型推理能力再升级!

   时间:2025-04-29 08:07:39 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,通义千问团队震撼发布Qwen3系列大型语言模型,标志着该团队在人工智能领域的又一重大突破。Qwen3在多个基准测试中展现出了卓越性能,特别是在代码理解、数学运算及通用知识应用方面,与业界顶尖模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro相比,毫不逊色。

值得注意的是,Qwen3系列中的小型MoE模型Qwen3-30B-A3B,尽管其激活参数数量仅为QwQ-32B的十分之一,但其表现却更为出色。而Qwen3-4B这样的小型模型,在性能上也能与Qwen2.5-72B-Instruct相媲美。为了促进学术研究与工业应用,通义千问团队此次开源了两个MoE模型权重:一个是拥有超过2350亿总参数和220多亿激活参数的大型模型Qwen3-235B-A22B,另一个是总参数约300亿、激活参数约30亿的小型模型Qwen3-30B-A3B。六个Dense模型也已同步在Apache2.0许可下开源。

Qwen3系列模型引入了独特的思考模式,分为思考模式与非思考模式。在思考模式下,模型会进行逐步推理,深思熟虑后给出答案,尤其适合处理复杂问题;而在非思考模式下,模型则提供快速响应,适用于简单问题。这种双模式设计,让用户能够根据不同任务需求,灵活调整模型的“思考”程度,实现高效的“思考预算”管理。

Qwen3系列还支持多达119种语言和方言,为国际应用提供了广阔空间。其预训练数据集相较于Qwen2.5有了显著扩展,涵盖了约36万亿个token,涉及119种语言和方言。预训练过程经过精心设计,分为三个阶段,确保模型能够高效处理长输入。

为了打造兼具思考推理与快速响应能力的混合模型,Qwen3采用了四阶段训练流程。从长思维链冷启动,到长思维链强化学习,再到思维模式融合,最终通过通用强化学习进一步提升模型能力。这一流程不仅赋予了模型基本的推理能力,还显著增强了其通用性。

Qwen3的发布与开源,无疑将为大型基础模型的研究与开发注入强大动力。通义千问团队致力于赋能全球研究人员、开发者和组织,助力他们利用这些前沿模型,探索创新解决方案。

目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上线,用户可轻松将其集成至研究、开发或生产环境中。对于想要深入了解或体验Qwen3的用户,可通过以下链接获取更多信息:

Hugging Face平台:https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社区:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen Chat平台:https://chat.qwen.ai

阿里云百炼平台(即将上线,提供100万tokens免费体验):https://www.aliyun.com/product/tongyi

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version