在AI领域的一次重大突破中,阿里云近日凌晨震撼发布了其最新推理模型QwQ-32B。这款模型在性能上可与DeepSeek-R1相媲美,但令人惊讶的是,它能够在消费级显卡上实现本地部署。
QwQ-32B的参数量达到了320亿,尽管与DeepSeek-R1的6710亿参数量相比,差距近20倍,但在数学推理和编程能力上的表现却毫不逊色。事实上,QwQ-32B在这些方面的表现与DeepSeek-R1相当,甚至超越了o1-mini及相同尺寸的R1蒸馏模型。在通用能力测评上,QwQ-32B的得分也全面超过了DeepSeek-R1。
这一成就引起了业界的广泛关注。苹果的机器学习科学家Awni Hannun(吴恩达的学生)甚至发文展示了QwQ-32B在配备MLX框架的M4 Max芯片电脑上的惊人运行速度。这一消息无疑为QwQ-32B的实用性增添了浓墨重彩的一笔。
QwQ-32B不仅在性能上令人瞩目,其开源的特性也使其具有更广泛的应用前景。该模型已在Hugging Face和ModelScope上以Apache 2.0许可证开源,这意味着它可用于商业和研究用途。企业可以立即利用这一模型为他们的产品和应用程序提供动力,甚至向客户收费使用。
在一系列基准测试中,QwQ-32B的表现同样令人印象深刻。在数学能力的AIME24评测集以及评估代码能力的LiveCodeBench中,QwQ-32B与DeepSeek-R1的表现相当,并超越了o1-mini及相同尺寸的R1蒸馏模型。在由meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFeval评测集以及加州大学伯克利分校等提出的BFCL测试中,QwQ-32B的得分也均超过了DeepSeek-R1。
QwQ-32B的另一大优势在于其对硬件资源的较低要求。运行QwQ-32B仅需GPU上的24GB vRAM(英伟达H100为80GB),而运行完整的DeepSeek R1则需要超过1500GB vRAM。这一特性使得QwQ-32B在更广泛的设备上部署成为可能。
社交平台上的网友们对QwQ-32B的反应异常热烈。机器学习爱好者们纷纷称赞其推理速度“非常快”,可与顶级模型相媲美。有网友甚至晒出了在M4 Max芯片的MacBook上运行的推理速度,进一步证实了QwQ-32B的出色性能。
QwQ-32B的成功离不开阿里云研究团队在强化学习方面的深入探索。他们在冷启动的基础上开展了大规模强化学习,特别针对数学和编程任务进行了训练。通过校验生成答案的正确性和代码执行服务器评估生成的代码,他们为模型提供了准确的反馈,从而实现了性能的持续提升。
QwQ-32B的推出标志着强化学习在AI模型发展中的重要作用。阿里云研究团队表示,他们将继续探索扩展强化学习以提高模型智能,并将Agent与强化学习集成用于长时间推理。这一系列的努力无疑将为AI领域带来更多的创新和突破。