近期,关于OpenAI最新推出的o1模型正式版及Pro版的性能表现,引发了广泛讨论。尽管官方宣传中不乏亮点,但实际数据揭示的模型提升幅度却略显保守。
具体而言,o1正式版在数学与编程领域确实取得了显著进步,但在处理博士级别问题的能力上,其提升幅度却相当有限。即便是随后推出的Pro版本,也只是在各方面对正式版做了小幅优化,并未带来颠覆性的改变。这一现状,无疑让不少期待o1能在博士级问题上大放异彩的用户感到失望。
回顾o1模型发布之初,其主打的就是能够在博士级别的问答中展现卓越能力。然而,从正式版到Pro版,这一方面的提升并不明显,这无疑让用户的期望落空。此前,知危编辑部曾邀请来自清华、北大、南京大学的博士对o1预览版进行测试,他们一致认为,o1在思维和知识储备上已达到博士水准,但在课题探索和提供研究思路方面仍有不足,未能真正达到“做学术”的标准。
尽管在回答能力上提升有限,但o1正式版在用户体验方面却有了显著提升。其重大错误犯错率较预览版减少了约34%,回答速度也提高了约50%。在直播现场对比测试中,面对“列出二世纪的罗马皇帝,包括他们的时期和成就”这一问题,o1正式版仅用14秒便给出了回答,比预览版快了近20秒,这一差距让用户感受明显。
在回答的可靠性上,o1正式版也展现出了显著进步。通过“4/4可靠性”测试,o1正式版在各个领域都比预览版有了显著提升,而Pro版则更进一步。这一进步,无疑增强了用户对o1模型的信任度。
除了用户体验的提升,o1正式版还支持了多模态输入,用户可以通过图+文字的形式向模型提问。在直播现场,OpenAI团队展示了一张“太空数据中心”草图,并询问了关于散热器面积的问题。o1模型迅速捕捉到了图中的关键信息,并给出了详细的回答,其回答不仅准确,还考虑到了多种可能影响散热效果的因素。
测试草图
由于o1 Pro模型的思考深度更高,耗时更长,为了提升用户体验,OpenAI为其加入了回答进度条。这一设计,有效缓解了用户在等待回答时的焦虑情绪,成为OpenAI此次更新中的一大亮点。