滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI o3模型实测分数引争议，透明度与测试标准成焦点

时间：2025-04-21 08:09:47 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

近期，关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于，OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。

去年12月，OpenAI自豪地宣布，其o3模型在极具难度的FrontierMath数学问题集上取得了突破性成绩，正确率超过四分之一，远超其他竞争对手。OpenAI首席研究官Mark Chen在直播中强调，这一成绩是在内部激进测试条件下，使用资源更为强大的o3模型版本所得出的。

然而，事情并未如此简单。负责FrontierMath的Epoch研究所随后公布的独立基准测试结果显示，公开发布的o3模型得分仅为约10%，远低于OpenAI宣称的分数。这一发现立即引发了外界对OpenAI透明度和测试实践的质疑。

值得注意的是，OpenAI在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。Epoch在报告中指出，测试设置的差异、评估使用的FrontierMath版本更新，以及可能的计算资源和框架不同，都可能是导致结果差异的原因。

ARC Prize基金会也在X平台上发布消息，进一步证实了Epoch的报告。ARC Prize指出，公开发布的o3模型是一个针对聊天和产品使用进行了调整的不同版本，且所有发布的o3计算层级都比预发布版本要小。这意味着，尽管o3模型在内部测试中取得了高分，但公开发布的版本在性能上有所妥协。

尽管如此，OpenAI并未因此止步。该公司后续推出的o3-mini-high和o4-mini模型在FrontierMath上的表现已经超越了最初的o3模型。同时，OpenAI还计划在未来几周内推出更强大的o3版本——o3-pro。

然而，这一系列事件再次凸显了人工智能基准测试结果的复杂性和不确定性。尤其是当这些结果来自有产品需要销售的公司时，外界对其真实性和可靠性的质疑声往往会更加响亮。随着人工智能行业的竞争加剧，各供应商纷纷急于推出新模型以吸引眼球和市场份额，基准测试“争议”正变得越来越普遍。

事实上，类似的争议并非个例。今年1月，Epoch因在OpenAI宣布o3之后才披露其从OpenAI获得的资金支持而受到批评。许多为FrontierMath做出贡献的学者直到公开时才知道OpenAI的参与。而最近，埃隆·马斯克的xAI也被指控为其最新的人工智能模型Grok 3发布了误导性的基准测试图表。就在本月，meta也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

余凯论智能驾驶：软硬结合是王道，品牌差异难靠此打造

04-21

人机共跑！北京天工Ultra机器人首夺人形机器人马拉松冠军

在具身智能大脑能力构建上，百度智能云为北京人形机器人创新中心提供了百舸AI异构计算平台以及高性能、稳定可靠的AI算力，实现算力高效调度并显著提升大模型的训推性能，助力天工机器人将集群有效训练时长提升至98.…

04-21

ChatGPT喊你名字了？用户反应不一，个性化尝试遭遇“恐怖谷”

近期，部分 ChatGPT 用户注意到一个现象：这款人工智能聊天机器人在与用户互动和进行逻辑推理时，会直接称呼用户的名字。一些用户在 X 平台上表示，即便他们已经禁用了记忆功能及相关的个性化设置，ChatGP…

04-20

数势科技实力彰显！入榜IDC中国AI Agent应用市场报告成标杆

04-20

数势科技AIGC峰会夺双奖，发布白皮书领跑决策智能新赛道

04-20

魔珐科技与洲明科技携手，共创AI数字人沉浸式交互新纪元

04-20

百度三年开放2.1万实习岗，全力培育AI领域未来领袖

04-20

AI礼貌回复背后：数千万美元开销，你的“谢谢”值多少？

04-20

vivo X200 Ultra震撼发布：影像巅峰，手机界的摄影大师？

04-20

微软CTO凯文·斯科特：未来AI将涌现大量专业Agent

在最新的访谈中，微软CTO Kevin Scott发表关于AI的系列观点。他认为：我不认同那种 “一个Agent搞定一切” 的理论，会出现大量Agent。他们需要深入了解所在领域的特点，帮助建立反馈闭环…

04-20

百度三年内将提供2.1万实习岗位，力推校园人才转正计划

04-20

vivo X200 Ultra：影像巅峰，手机界的摄影大师来袭！

04-20

优刻得2025Q1财报：营收增至3.76亿，净亏损收窄至4473万

04-19

算力赋能影视创新，博大数据高辉共话电影工业未来

04-19

德施曼新品发布会预告：AI赋能，智能锁技术革命再升级？

04-19

点击查看更多 +

全站最新

Xbox云游戏火爆：月游戏时长数千万小时，斯宾塞称增长迅猛

《风暴崛起》意外提前发售，RTS 游戏品类能否借此东风重回巅峰？

哈弗枭龙MAX：全民四驱新时代，家庭SUV的理性之选？

微信朋友圈动图功能来了？小米用户即将体验灰度测试

特斯拉高管陶琳呼吁：停售影响行车安全的第三方配件，珍爱生命！

ChatGPT礼貌回应成本惊人，山姆奥特曼透露耗资达百万美元级

热门内容

本栏最新

OpenAI o3模型实测分数引争议，透明度与测试标准成焦点

余凯论智能驾驶：软硬结合是王道，品牌差异难靠此打造

人机共跑！北京天工Ultra机器人首夺人形机器人马拉松冠军

数势科技实力彰显！入榜IDC中国AI Agent应用市场报告成标杆

数势科技AIGC峰会夺双奖，发布白皮书领跑决策智能新赛道

魔珐科技与洲明科技携手，共创AI数字人沉浸式交互新纪元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.