滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI o1模型实测：PlanBench规划能力，准确率高达97.8%！

时间：2024-09-25 13:06:44 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

【ITBEAR】9月25日消息，近日，亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示，尽管o1模型在某些方面取得了显著的进步，但其仍然存在较大的局限性。

PlanBench基准于2022年开发，主要用于评估人工智能系统在规划方面的能力。该基准包含了600个来自Blocksworld领域的任务，要求积木必须按照特定的顺序进行堆叠。

据ITBEAR了解，在Blocksworld任务中，OpenAI的o1模型展现出了惊人的表现，其准确率高达97.8%，远远超过了之前的最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而o1模型的准确率仍能达到52.8%。

为了验证o1模型的性能是否源于其训练集中的基准数据，研究人员还测试了一种新的随机变体。在这次测试中，o1模型的准确率降至37.3%，但仍远超其他得分接近零的模型。

然而，随着任务的复杂性增加，o1模型的表现也急剧下降。在需要20到40个规划步骤的问题上，o1模型在较简单测试中的准确率从97.8%骤降至23.63%。此外，该模型在识别无法解决的任务方面也显得力不从心，只有27%的时间能够正确识别，而在54%的情况下，它错误地生成了完整但不可能完成的计划。

尽管o1模型在基准性能上实现了显著的改进，但它并不能保证解决方案的正确性。与经典的规划算法相比，如快速向下算法，这些算法可以在更短的计算时间内实现完美的准确性。

研究还指出，o1模型的高资源消耗是一个不容忽视的问题。运行这些测试需要花费近1900美元，而经典算法在标准计算机上运行则几乎不需要任何成本。

研究人员强调，对人工智能系统进行公平比较时，必须综合考虑准确性、效率、成本和可靠性。他们的研究结果表明，尽管像o1这样的人工智能模型在复杂推理任务方面取得了进步，但这些能力仍然有待提升。

关键词：#OpenAI o1模型# #规划能力测试# #PlanBench基准# #局限性# #资源消耗#

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

腾讯混元T1正式版发布，推理能力媲美DeepSeek-R1，价格更亲民

相比于T1-Preview，T1正式版基于腾讯混元3月初发布的业界首个超大规模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座，通过大规模后训练扩展了推理能力，并进一步对…

03-22

美团王兴：主动进攻AI，内部大模型longcat已上线

王兴在回答人工智能相关问题时表示，美团在人工智能技术方面的策略始终是“主动进攻”而非“被动防守”。美团的人工智能战略建立在三个层面上：首先是在日常工作中的应用；其次是在美团产品中的应用，还将推出全新的原生…

03-22

软银65亿美元大手笔！收购美国芯片设计巨头Ampere布局AI

03-22

乐鑫科技2024年度净利大增149%，非智能家居领域增速亮眼，端侧芯片布局加速！

03-22

腾讯混元T1深度思考模型发布：强推理、快回应，解锁超长文本处理新能力

03-21

百度地图领跑！核心API全面兼容MCP，大模型接入地图服务更便捷

03-21

Win11预览版大升级：画图、截图工具、记事本迎来AI新功能

03-21

Adobe新AI工具：Project Slide Wow，实时同步数据，让演示文稿更高效！

03-21

微软剑桥联手推出Aardvark Weather：AI让天气预报更精准高效

03-21

PCIe 7.0标准草案0.9版出炉，SSD普及还需苦等三年？

03-21

华为F5G-A万兆全光园区震撼登场：50G PON技术引领网络新升级！

03-21

云徙xAgent携手DeepSeek：重塑营销数字化底座，赋能企业智能化升级

03-21

富途“投资展”放大招：接入DeepSeek-R1，AI升级赋能零售投资者

03-21

富途接入DeepSeek，AI投资助手牛牛AI等升级功能亮相投资展

03-21

成龙电影A计划升级A³，可灵AI全程助力探索“人+AI”电影新纪元

03-21

点击查看更多 +

全站最新

空气悬架不再是豪车专属，20万内车型也能享受高端配置？

1300马力COPO版雪佛兰科迈罗亮相，送专业调教电脑及原厂数据！

蔚来巨亏224亿，李斌详解未来蓝图：销量翻倍，Q4盈利能否实现？

比亚迪3万转电机震撼发布，引领新能源汽车进入全新高性能时代！

腾势N9插混版上市，外观内饰科技感满满，售价38.98-44.98万元

地平线2024“三高”亮眼，智驾平权底气何在？征程6系列成关键

热门内容

本栏最新

腾讯混元T1正式版发布，推理能力媲美DeepSeek-R1，价格更亲民

乐鑫科技2024年度净利大增149%，非智能家居领域增速亮眼，端侧芯片布局加速！

腾讯混元T1深度思考模型发布：强推理、快回应，解锁超长文本处理新能力

百度地图领跑！核心API全面兼容MCP，大模型接入地图服务更便捷

Win11预览版大升级：画图、截图工具、记事本迎来AI新功能

Adobe新AI工具：Project Slide Wow，实时同步数据，让演示文稿更高效！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.