ITBear旗下自媒体矩阵:

OpenAI发布o1 AI模型,实测规划能力高达97.8%准确率,智能时代新篇章?

   时间:2024-09-25 21:38:33 来源:ITBEAR作者:赵云飞编辑:瑞雪 发表评论无障碍通道

【ITBEAR】9月25日消息,亚利桑那州立大学研究团队近日公布了一项关于OpenAI的o1模型的规划能力测试结果。在Blocksworld任务中,o1模型以97.8%的高准确率脱颖而出,远超先前领先的LLaMA 3.1 405B模型,后者准确率仅为62.6%。这一表现标志着o1在特定任务领域取得了显著进展。

据ITBEAR了解,此次测试采用了2022年开发的PlanBench基准,该基准旨在评估AI系统的规划能力。测试中包含了600个Blocksworld领域的任务,要求模型能够按照特定顺序堆叠积木。然而,在更为复杂的“Mystery Blocksworld”加密版本任务中,o1模型的准确率有所下降,仅为52.8%。而在一种新的随机变体测试中,其准确率更是降至37.3%,尽管如此,它仍然优于其他参与测试的模型。

随着任务复杂度的提升,o1模型的性能出现了明显的下滑。在需要20至40个规划步骤的任务中,其准确率从原本的97.8%大幅下降至23.63%。此外,o1模型在识别无法解决的任务方面也表现出了一定的困难,仅能在27%的情况下正确识别。而在54%的情况下,该模型会错误地生成完整但无法实际完成的计划。

尽管o1模型在基准性能上有所突破,但研究人员也指出了其在实际应用中可能面临的问题。首先是其高昂的运行成本,达到了近1900美元(约合人民币13342元)。其次,o1模型无法保证生成的解决方案的正确性,这在一定程度上限制了其在实际场景中的应用。相比之下,传统的规划算法在标准计算机上运行几乎无需额外成本。

#OpenAI# #o1模型# #规划能力测试# #Blocksworld# #准确率下滑#

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version