近日,大模型竞技场迎来了一次重大的规则更新,此次变动显著影响了各大模型的排名,其中备受瞩目的GPT-4o mini在新规则下排名大幅下滑,跌出了前十的行列。
据悉,新榜单对AI回答的长度和风格等特征进行了降权处理,旨在确保评分更加客观地反映模型真正解决问题的能力,而非仅仅依赖于格式的华丽或回答的冗长。这一调整意味着,那些试图通过增加小标题数量、优化排版格式等手段来刷榜的模型,将难以在此新规则下获得优势。
据ITBEAR了解,除了GPT-4o mini之外,其他多款知名模型也受到了新规则的影响。例如,马斯克的Grok-2系列以及谷歌的Gemini-1.5-flash小模型排名均有所下降,而Claude系列和Llama-3.1-405b大模型则在新规则下取得了更好的成绩。
在只计算困难任务(Hard Prompt)的情况下,大模型在风格控制榜单中的表现尤为突出,进一步凸显了其在处理复杂任务方面的优势。
此次规则更新得到了业界的广泛关注。此前,GPT-4o mini一度登顶大模型竞技场,与GPT-4o满血版并列第一,然而这一排名与许多网友的实际体验存在明显差异。这也引发了关于大模型竞技场评价标准的热议,有观点认为该榜单过于侧重用户喜好,而非模型的实际能力。
为了回应外界的质疑,Lmsys组织公开了GPT-4o mini参与的1000场对战数据,并深入分析了影响投票结果的因素。结果显示,模型的拒绝回答率、生成内容长度以及格式排版等因素均对投票结果产生了显著影响。基于此,Lmsys推出了新的算法来控制这些因素,以期使榜单更加客观公正。
新规则的实施不仅引发了模型排名的重新洗牌,也激发了业界对于大模型评估方法的更多思考。如何在确保客观性的同时,充分反映模型的实际能力,将成为未来大模型竞技场面临的重要挑战。
对于普通用户而言,大模型竞技场的排名变动或许能为他们在选择模型时提供一定的参考。然而,更重要的是结合自身的实际需求和体验,来做出最合适的选择。