滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

OpenAI发布o1 AI模型，实测规划能力高达97.8%准确率，智能时代新篇章？

时间：2024-09-25 21:38:33 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

【ITBEAR】9月25日消息，亚利桑那州立大学研究团队近日公布了一项关于OpenAI的o1模型的规划能力测试结果。在Blocksworld任务中，o1模型以97.8%的高准确率脱颖而出，远超先前领先的LLaMA 3.1 405B模型，后者准确率仅为62.6%。这一表现标志着o1在特定任务领域取得了显著进展。

据ITBEAR了解，此次测试采用了2022年开发的PlanBench基准，该基准旨在评估AI系统的规划能力。测试中包含了600个Blocksworld领域的任务，要求模型能够按照特定顺序堆叠积木。然而，在更为复杂的“Mystery Blocksworld”加密版本任务中，o1模型的准确率有所下降，仅为52.8%。而在一种新的随机变体测试中，其准确率更是降至37.3%，尽管如此，它仍然优于其他参与测试的模型。

随着任务复杂度的提升，o1模型的性能出现了明显的下滑。在需要20至40个规划步骤的任务中，其准确率从原本的97.8%大幅下降至23.63%。此外，o1模型在识别无法解决的任务方面也表现出了一定的困难，仅能在27%的情况下正确识别。而在54%的情况下，该模型会错误地生成完整但无法实际完成的计划。

尽管o1模型在基准性能上有所突破，但研究人员也指出了其在实际应用中可能面临的问题。首先是其高昂的运行成本，达到了近1900美元（约合人民币13342元）。其次，o1模型无法保证生成的解决方案的正确性，这在一定程度上限制了其在实际场景中的应用。相比之下，传统的规划算法在标准计算机上运行几乎无需额外成本。

#OpenAI# #o1模型# #规划能力测试# #Blocksworld# #准确率下滑#

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

西部数据发布世界备份日全球调研：近九成中国受访者积极备份数据

从健康管理记录、财务文件到家庭影像与社交媒体视频，消费者越来越依赖于个人数据，也愈发意识到数据备份在当下的重要性。西部数据公司于今日公布了一项由Researchscape开展的全球调研。调研结果显示，全球有87%的受访者表示正通过自动或手动的方式来备份个人数据。在中

03-27

赛思自研芯片原子钟，助力“三桶油”深海勘探，亿吨级油气田解锁加速！

03-27

视源股份探秘：今元集团金柚网共谋企业新增长之道

03-27

Soul创始人张璐：帮助年轻人建立健康的人际关系

在当今社会，随着经济的快速发展和社会竞争的日益激烈，年轻人的精神压力问题愈发凸显。年轻人亟待一个平台作为情绪出口，消解压力，找到情感共鸣。Soul作为新型社交平台，创新性提出“45°社交”概念，让年轻人在一个较为放松的环境中畅所欲言，轻松建立连接。Soul创始

03-27

声网：技术创新助力全球布局，斩获出海先锋企业殊荣

03-27

绚星智慧科技领航AI新时代：云学堂更名后发布全新智能生产力战略

03-27

CTRLPA肯卓引领高速安全新纪元：风险监测预警解决方案受热捧

03-27

陕西智慧交通新标杆：天行健车联网入选首批数据要素创新案例

03-27

庆铃五十铃M100助力丛师傅创业路：品质动力双赢，城配多面手实至名归！

03-27

影院不提供免费3D眼镜，消费者权益何在？

03-27

Kindle新升级：Colorsoft与Paperwhite双击翻页功能来袭

03-27

我国首个海上氢氨醇一体化项目完工，烟台开启新能源制氢新篇章！

03-27

骨伽OmnyX双擎机箱亮相：海景房设计，三向摆放+极致散热新体验

03-27

AMD锐龙5 9600处理器跑分揭晓：与9600X性能近乎无差别

03-27

小红书回应高频获取信息质疑：读取频次依据用户使用场景

此前，有网友称小红书在后台持续高频获取用户位置信息，甚至有用户3天内被访问1.7万次，包含定位、照片与视频，设备状态、日程、剪贴板等，甚至凌晨未使用软件的时段仍有高频操作。还有网友上传的记录显示，其小红书…

03-27

点击查看更多 +

全站最新

OpenAI或将完成400亿融资，SoftBank领投创历史之最

国产超大杯SUV新宠？腾势N9能否撼动传统豪华SUV地位

新日2025年峰会：以“四新”战略，领航全民智能出行新时代

赛思自研芯片原子钟，助力“三桶油”深海勘探，亿吨级油气田解锁加速！

传音Infinix钙钛矿光伏储能技术成果亮相2025中关村论坛年会

视源股份探秘：今元集团金柚网共谋企业新增长之道

热门内容

本栏最新

赛思自研芯片原子钟，助力“三桶油”深海勘探，亿吨级油气田解锁加速！

视源股份探秘：今元集团金柚网共谋企业新增长之道

声网：技术创新助力全球布局，斩获出海先锋企业殊荣

绚星智慧科技领航AI新时代：云学堂更名后发布全新智能生产力战略

CTRLPA肯卓引领高速安全新纪元：风险监测预警解决方案受热捧

陕西智慧交通新标杆：天行健车联网入选首批数据要素创新案例

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.