阿里云通义千问团队近日宣布了一项重大进展,正式推出了其最新的推理模型QwQ-32B,并宣布该模型已全面开源。这款新模型拥有惊人的320亿参数,但其性能却能与参数规模高达6710亿的DeepSeek-R1相抗衡,其中DeepSeek-R1实际激活的参数为370亿。
阿里Qwen团队在QwQ-32B中融入了与Agent相关的能力,这一创新使得模型能够在使用各种工具的同时,展现出批判性思考的能力,并能根据环境反馈灵活调整其推理过程。这一特性无疑为模型的应用场景开辟了更广阔的空间。
为了全面评估QwQ-32B的性能,团队进行了一系列基准测试。在数学推理方面,QwQ-32B在AIME24评测集上的表现与DeepSeek-R1不相上下,同时远超o1-mini以及相同尺寸的R1蒸馏模型。在编程能力方面,通过LiveCodeBench的评测,QwQ-32B同样展现出了与DeepSeek-R1相当的实力。在由meta首席科学家杨立昆主导的“最难LLMs评测榜”LiveBench、谷歌提出的指令遵循能力IFeval评测集,以及加州大学伯克利分校等提出的BFCL测试中,QwQ-32B的得分均超过了DeepSeek-R1,充分证明了其卓越的性能和广泛的应用潜力。
目前,QwQ-32B已经成功在Hugging Face和ModelScope平台上开源,并采用了Apache 2.0开源协议,这一举措无疑将为全球AI领域的研究者和开发者提供更多的选择和机会,共同推动AI技术的发展和应用。