在ChatGPT掀起人工智能浪潮的第二年,OpenAI与国内的AI企业正悄然转向,试图超越这一里程碑式的产品。随着关于Scaling Law能力上限的讨论日益增多,今年9月,OpenAI带着其全新系列模型o1震撼登场,再次将“会思考的大模型”推向了科技前沿。
OpenAI的首席执行官奥特曼对o1的发布充满信心,他坚信这一模型不仅证明了AI的发展并未放缓,反而预示着未来几年内,AI领域将迎来新的突破与成就。在国内,众多大模型厂商迅速响应,纷纷加入到对o1的学习与超越的行列中。
仅仅两个月后,国内的大模型市场便涌现出了一批各具特色的o1类深度思考模型。从kimi的k0 math到Deepseek的DeepSeek-R1-Lite,再到昆仑万维推出的“天工大模型4.0”o1版,这些模型无一不强调着逻辑思考能力的重要性,标志着国内AI大模型在这一领域的深入探索。
在OpenAI未公开o1具体技术细节的情况下,国内大模型企业凭借敏锐的洞察力和强大的研发实力,仅用了两个月的时间便跟上了这一前沿趋势。11月16日,月之暗面发布了k0 math模型,通过强化学习和思维链推理技术,实现了对人类思考和反思过程的模拟,极大地提升了数学推理能力。
紧接着,四天后,Deepseek推出了DeepSeek-R1-Lite模型。与OpenAI的o1相比,R1毫无保留地展示了其完整的思考过程,思维链长度可达数万字。在AIME(美国数学竞赛)和部分编程比赛的测试中,R1的表现甚至超越了o1-Preview。Deepseek还在官网上提供了测试版,允许用户每天体验50次对话。
随后,昆仑万维也推出了具有复杂思考推理能力的天工大模型4.0 o1版(Skywork o1),并宣布它是国内首款实现中文逻辑推理的模型。Skywork o1提供了三种版本,包括开源的Skywork O1 Open、优化中文支持能力的Skywork O1 Lite,以及完整展现模型思考过程的Skywork O1 Preview。
这些国产“o1”大模型并非简单的复刻,而是通过引入思维链(CoT)技术,将复杂问题拆解为多个小问题,模拟人类逐步推理的过程。强化学习使大模型能够尝试多种解题方法,并根据反馈调整策略,从而实现了自我学习和反思的能力。这种“慢思考”模式让大模型在一些往常无法解决的问题上也能给出正确答案。
然而,“慢思考”模型也面临着挑战。虽然它们在特定学科上的表现突飞猛进,但大量耗费tokens的方式未必能换来用户期望的回报。在某些情况下,增加思维链的长度可以提高效率,但并不意味着在所有情况下都是最优解。因此,大模型需要学会对问题难度进行判别,从而决定是否采用深度思考模式回答对应问题。
从特定场景下的强化学习应用转向通用模型,在训练算力和成本的平衡上还存在一定难度。目前,“慢思考”类大模型开发的基座模型参数普遍不大,还需要一定时间才能跑出真正能够释放思维链能力的模型。
尽管如此,大厂们仍将o1视为下一个必备项。在OpenAI和智谱给出的“通往AGI五阶段”的定义中,o1的出现标志着大模型能力从L1阶段(多模态和大语言模型能力)突破到了L2阶段(逻辑思维能力)。国内厂商在同步跟进o1类产品的同时,已经开始思考如何将o1的能力与现有AI应用方向结合,探索更大的可能性。