人工智能领域近日迎来了一项重要进展,AI公司Anthropic宣布成功推出Claude 3.7 Sonnet1,这一新模型被誉为Anthropic迄今为止最为智能,同时也是市场上首个混合推理模型。
据Anthropic介绍,Claude 3.7 Sonnet不仅具备即时响应的能力,还能向用户展示扩展的、逐步的思考过程。这对于API用户来说尤为友好,因为他们可以对模型的思考时间进行精细化的控制。
此次推出的Claude 3.7 Sonnet,Anthropic明确表达了其目标是与OpenAI的o1、o3-mini,以及DeepSeek的R1、Grok 3 Beta等模型一较高下。特别是在编码和前端Web开发方面,Claude 3.7 Sonnet展现出了显著的改进。
除了Claude 3.7 Sonnet这一重量级模型外,Anthropic还推出了Claude Code,这是一款用于代理编码的命令行工具。目前,Claude Code以有限的研究预览版形式提供,它允许开发人员直接从终端将大量工程任务委托给Claude处理。
值得注意的是,Claude 3.7 Sonnet现已全面上线,覆盖Claude的所有计划,包括免费版、专业版、团队版和企业版,以及Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI等平台。除免费层外,所有界面均提供扩展思考模式。
在收费方面,Claude 3.7 Sonnet在标准和扩展思维模式下,每百万输入令牌收费3美元(大约可输入750,000个单词),每百万输出令牌收费15美元。这一价格定位使其相较于OpenAI的o3-mini(每百万输入令牌1.10美元,每百万输出令牌4.40美元)和DeepSeek的R1(每百万输入令牌55美分,每百万输出令牌2.19美元)更为昂贵。但值得注意的是,o3-mini和R1是严格的推理模型,而Claude 3.7 Sonnet则是一款混合模型。
Anthropic强调,Claude 3.7 Sonnet的开发理念与市场上的其他推理模型有所不同。他们认为,推理应该是前沿模型的综合能力,而非完全独立的模型。正如人类使用单个大脑进行快速反应和深度思考一样,Claude 3.7 Sonnet也兼具这两种能力。
Claude 3.7 Sonnet在多个方面体现了这一理念。首先,它既是普通的LLM,又是推理模型。用户可以根据需求选择模型是正常回答,还是在回答前进行更长时间的思考。在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版;而在扩展思考模式下,它会在回答前进行自我反思,从而提升在数学、物理、指令遵循、编码等多项任务上的表现。
当通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算。他们可以设定Claude的思考标记不超过某个数值,而无论该数值是多少,其输出都会被限制在128K标记以内。这为用户在速度和成本之间提供了权衡的空间。
在开发Claude 3.7 Sonnet的过程中,Anthropic还减少了对数学和计算机科学竞赛问题的优化,而是将更多精力放在了更能反映企业实际使用LLM方式的现实任务上。