ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

GPT-4o mini排名暴跌，大模型竞技规则大改，奥特曼刷分秘籍失效？

时间：2024-08-31 13:40:10 来源：ITBEAR作者：赵云飞编辑：瑞雪 发表评论无障碍通道

近日，大模型竞技场迎来了一次重大的规则更新，此次变动显著影响了各大模型的排名，其中备受瞩目的GPT-4o mini在新规则下排名大幅下滑，跌出了前十的行列。

据悉，新榜单对AI回答的长度和风格等特征进行了降权处理，旨在确保评分更加客观地反映模型真正解决问题的能力，而非仅仅依赖于格式的华丽或回答的冗长。这一调整意味着，那些试图通过增加小标题数量、优化排版格式等手段来刷榜的模型，将难以在此新规则下获得优势。

据ITBEAR了解，除了GPT-4o mini之外，其他多款知名模型也受到了新规则的影响。例如，马斯克的Grok-2系列以及谷歌的Gemini-1.5-flash小模型排名均有所下降，而Claude系列和Llama-3.1-405b大模型则在新规则下取得了更好的成绩。

在只计算困难任务（Hard Prompt）的情况下，大模型在风格控制榜单中的表现尤为突出，进一步凸显了其在处理复杂任务方面的优势。

此次规则更新得到了业界的广泛关注。此前，GPT-4o mini一度登顶大模型竞技场，与GPT-4o满血版并列第一，然而这一排名与许多网友的实际体验存在明显差异。这也引发了关于大模型竞技场评价标准的热议，有观点认为该榜单过于侧重用户喜好，而非模型的实际能力。

为了回应外界的质疑，Lmsys组织公开了GPT-4o mini参与的1000场对战数据，并深入分析了影响投票结果的因素。结果显示，模型的拒绝回答率、生成内容长度以及格式排版等因素均对投票结果产生了显著影响。基于此，Lmsys推出了新的算法来控制这些因素，以期使榜单更加客观公正。

新规则的实施不仅引发了模型排名的重新洗牌，也激发了业界对于大模型评估方法的更多思考。如何在确保客观性的同时，充分反映模型的实际能力，将成为未来大模型竞技场面临的重要挑战。

对于普通用户而言，大模型竞技场的排名变动或许能为他们在选择模型时提供一定的参考。然而，更重要的是结合自身的实际需求和体验，来做出最合适的选择。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

《黑神话》后谁主沉浮？影之刃独领风骚，未来何去何从？

《黑神话：悟空》的成功为国产3A单机游戏开了一个好头，开发环境有望得到极大改善，不过开发大型游戏需要时间，有玩家也担心《黑神话》未来几年会“后继无人”。在Steam吧有网友列出了几款预计未来几年内发售的国产…

08-31

顽皮狗神秘入驻TikTok，新作消息或将掀起狂潮？

8月30日，顽皮狗在X宣布其已正式入驻TikTok，届时或会有更多的新消息在该平台展出。顽皮狗TikTok链接>>>在评论区里，一些玩家在欣喜之余，纷纷催促顽皮狗能够尽快公布新作品的消息。此前顽皮狗…

08-31

《黑神话》：中国玩家越玩越失望，老外却越陷越深，原因竟是……？

近日，有玩家通过《黑神话：悟空》Steam国内外好评率，发现了有趣的一点：国内玩家游玩时间越长，好评率越低，而国外恰恰相反，游玩时间越长，好评率越高。这是不是说明国外玩家对剧情的关注度更低，或者更喜欢这种剧情…

08-31

《雨中冒险2》DLC遭遇差评风暴，原创团队发声恳求玩家给予机会翻盘！

“……这对开发人员来说肯定很糟糕，他们承受着巨大的压力，无法顺利庆祝推出新DLC的伟大胜利”，莫尔斯表示，“但我们仍然相信 Gearbox正朝着正确的方向前进，他们有决心解决问题并听取反馈。 “我想花点…

08-31

《黑神话》BOSS垃圾话火爆全网，猴子体味大揭秘，真相令人捧腹！

近日，有网友在打完《黑神话：悟空》后，给出了自己的灵魂发问：猴子的味真的很大么？几个boss老远就闻到“臊味”了。对此，有网友表示，这就是对天命人的嘲讽罢了，嘲讽猴子野性未驯，得道成仙的不会有味。也有人表…

08-31

“西游”变“游戏”：《黑神话：悟空》如何颠覆传统，引领文学新潮流？

可以看到在近期关于《悟空》的讨论中，出现了一系列关于游戏与原著《西游记》之间的关系处理的意见与看法：1.玩家整体期待在体尝过美式荒野、日式幻想空间与欧洲神话世界后能够回到自己从童年时就十分熟悉的花果山、黄风岭…

08-31

揭秘！《刺客信条：影》销量惨淡背后的真相，育碧官方终于发声！

来源：中关村在线备受争议的《刺客信条：影》似乎在其预购阶段受到了影响。据内部人士透露，一家全国性连锁店的Xbox和PS5预订量总计不到800份，在900多家门店中，每家门店的预订量均未超过1笔。在最近的投…

08-31

BLG横扫LPL夏季赛！零封WBG，春夏双冠霸业已成？

在第二局，BLG下路拿出”弗雷尔卓德“体系，开局两分钟便击败蕾欧娜收获”一血“，随后BLG一路高歌，凭借着巨大优势拿下比赛胜利。进入中期，双方围绕峡谷先锋和小龙展开激烈争夺，第31分钟，BLG的AD选手Elk…

08-31

康熙降世传奇揭秘：一代帝王的非凡诞生，究竟隐藏着怎样的故事？

就在他鼾声大作睡得正香时，忽然帐篷门掀开走进一紫衫人对他说：圣上做为真龙天子，可在天空中飞翔过？第二天回京的途中，顺治帝叫了几个心腹太监，把梦中的奇遇给他们描述了一遍，让他们即刻带人去关外寻找那个楚楚动人…

08-31

黑神话火速修复轮椅bug反遭嘲讽？网友：直接叮岂不美哉！

《黑神话：悟空》于近日更新首个补丁，修复了大量BUG，其中也包括一些玩家眼中的“良性BUG”，比如无限法术、无限体力等等。但谁曾想修复BUG这么一件天经地义的事情也会被部分玩家反对，贴吧就有玩家发帖吐槽：“…

08-31

《无主之地4》惊艳曝光！四张概念图引爆期待，你敢来探索未知世界吗？

IT之家 8 月 31 日消息，科技媒体 WccFtech 昨日（8 月 30 日）报道，开发商 Gearbox Software 出席 PAXWest，分享了 4 张《无主之地 4》游戏的概念图。本次官…

08-31

育碧大作来袭！《星球大战》：亡命之徒，你准备好迎接挑战了吗？

2024-08-31 10:40:47作者：姚立伟育碧最新推出的开放世界游戏《星球大战：亡命之徒》已经正式上线。这个成绩与之前报道的外媒GamersRD给予该作的3分评分有所不同，但总体来说，《星球大战…

08-31

曝光！正厅级高官印宇鹰落马，竟因“沉迷网游”遭双开？

印宇鹰严重违反党的政治纪律、组织纪律、廉洁纪律、工作纪律和生活纪律，构成严重职务违法并涉嫌受贿、行贿犯罪，且在党的十八大后不收敛、不收手，性质严重，影响恶劣，应予严肃处理。张勇在陆续要求身边的商人老板为他…

08-31

天命人齐聚好运之城，共赏绝美古建筑！你不来看看吗？

游戏中不少古建取材于位于运城，包括解州关帝祖庙、广仁王庙、鹳雀楼、秋风楼与飞云楼。游戏中的场景灵感源自芮城的广仁王庙，有网友认为，这座庙宇似乎是在游戏的名场面“亢金龙”与“天命人”的对决中占据了远处冰湖中央…

08-31

JDG霸气登顶，JL、OUG紧追不舍！NBPL三排激战，积分榜谁主沉浮？

如果从上半场来评价的话，上半场JL是发挥最好的队伍，在首局拿下开门红天选之后，连续两把都是有着不俗的分数入账。在之前决赛中，JDG曾多次阻止赛点队伍夺冠，那时候他们就已经展现了强队的实力，最关键在3V3对抗…

08-31

点击查看更多 +

全站最新

康熙降世传奇揭秘：一代帝王的非凡诞生，究竟隐藏着怎样的故事？

大模型时代来临：挑战VS机遇！张文中揭秘物美、多点Dmall如何把握新风口

快手押注AI商业化，能否打破短视频行业的天花板？

新能源巨头联手！宁德时代与协鑫集团全面合作，产业链上下游将迎巨变？

逸仙电商财报揭晓：研发重磅投入，护肤品业务稳如泰山，未来如何布局？

迪阿股份遭遇业绩滑铁卢，上半年闭店84家，高管自降薪一半求生存！

热门内容

本栏最新

《雨中冒险2》DLC遭遇差评风暴，原创团队发声恳求玩家给予机会翻盘！

《黑神话》BOSS垃圾话火爆全网，猴子体味大揭秘，真相令人捧腹！

“西游”变“游戏”：《黑神话：悟空》如何颠覆传统，引领文学新潮流？

BLG横扫LPL夏季赛！零封WBG，春夏双冠霸业已成？

康熙降世传奇揭秘：一代帝王的非凡诞生，究竟隐藏着怎样的故事？

黑神话火速修复轮椅bug反遭嘲讽？网友：直接叮岂不美哉！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
合作咨询QQ：642361(微信同号) 争议稿件处理QQ：42503264
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1
Copyright © 小熊科技资讯 2007-2021 ITBEAR.COM.CN All rights reserved.