在近期科技界的重大事件中,OpenAI公司的“12 Days of OpenAI”活动圆满落幕,这一活动的压轴大戏是o3系列大模型的惊艳亮相。据官方透露,o3在某些应用场景下的推理能力已逼近通用人工智能(AGI)的水平,这一消息引起了业界的广泛关注。
关于o3的命名,OpenAI首席执行官山姆·阿尔特曼在一场直播活动中给出了答案。他解释称,为了避免与英国电信运营商O2的商标产生冲突,公司决定跳过o2,直接将最新模型命名为o3。这一决定不仅彰显了OpenAI在命名上的创意,也体现了其对法律风险的谨慎考量。
o3作为o1推理模型的升级版,推出了完整版和精简版(o3-mini)两个版本。其中,o3-mini针对特定任务进行了优化,以满足不同用户的需求。然而,OpenAI并未立即全面开放这两款模型,而是先邀请安全研究人员注册测试预览版o3-mini,待测试稳定后再推出o3预览版。这一举措不仅有助于提升模型的安全性,还能为后续的全面开放打下坚实基础。
对于感兴趣的公众而言,他们可以通过OpenAI的官方网站提交申请,参与安全测试。虽然阿尔特曼并未透露o3模型的具体开放日期,但他表示o3-mini将在2025年1月底推出,随后再推出o3。这一消息无疑让众多AI爱好者充满了期待。
o3模型与主流AI模型的一个显著区别在于其事实核查功能。这一功能能够帮助o3规避一些常见的模型陷阱,但也会带来一定的响应延迟。根据推理难度的不同,延迟时间通常在几秒到几分钟之间。o3还采用了“私人思想链”进行思考,能够在响应前暂停并考虑相关提示,最终给出最准确的答案。
o3模型还具备调整推理时间的新功能,用户可以根据需要选择低、中、高三种计算级别。计算级别越高,o3的任务执行性能就越好。这一功能为用户提供了更加灵活的使用体验。
在性能方面,o3模型在多个基准测试中均表现出色。在ARC-AGI基准测试中,o3在高计算设置下获得了87.5%的分数,在低计算设置下得分为75.7%,性能是o1的三倍。在SWE-Bench Verified编程任务基准测试、Codeforces编程技能测试、2024年美国数学邀请赛以及GPQA Diamond研究生水平生物、物理和化学测试中,o3均取得了优异的成绩。
这些成绩不仅证明了o3模型的强大实力,也为其在通用人工智能领域的进一步发展奠定了坚实基础。然而,随着o3能力的不断提升,其潜在风险也日益凸显。OpenAI承诺将致力于模型安全,并与其他机构合作构建更加完善的基准测试体系,以确保o3能够在安全可控的范围内发挥最大效用。
o3的发布对于OpenAI与微软之间的合作关系也产生了重要影响。根据双方的交易条款,一旦OpenAI达到AGI水平,公司将不再有义务向微软提供其最先进的技术。这意味着o3的成功发布不仅标志着OpenAI在通用人工智能领域迈出了重要一步,也可能对其与微软的合作关系产生深远影响。