在人工智能领域,开源大模型Llama 4的发布风波持续发酵,引发广泛关注和讨论。4月8日,备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明,针对社群对meta新模型Llama 4排名的质疑,承诺将公开2000多场真人对比测试的完整数据,并罕见地点名meta。
Chatbot Arena指出,meta应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好优化的定制化模型。平台正在更新排行榜的策略,以避免此类混淆再次发生。这一声明不仅是对当前事件的澄清,更是对整个大模型行业的一次警示。
Chatbot Arena由加州大学伯克利分校发起,通过真人盲测机制,让开发者和AI爱好者在平台上用相同问题向两款模型提问,对比回答内容并投票打分。这种独特的评测方式使其成为外界最为信赖的大模型排行榜之一。模型在Chatbot Arena排行榜的排名,直接影响其在媒体和开发者群体中的口碑与采纳率。
因此,当meta在4月5日发布最新一代开源大模型Llama 4,并迅速冲上Chatbot Arena排行榜第二,仅次于Google前脚发布的Gemini 2.5 Pro时,引起了所有人的好奇和期待。然而,很快社区发现,这一版本是未公开、定制化调优的实验模型,而非meta开源的正式版。争议由此爆发:这是否构成“刷榜”?Chatbot Arena是否被利用为营销工具?meta为何要如此操作?
不仅如此,在部分官方未展示的专业基准测试中,Llama 4的表现也不尽如人意,几乎垫底。许多首批尝试的用户在Reddit等社交平台上表达了失望,指出Llama 4在编程能力上的不足。有用户提到:“考虑到Llama-4-Maverick有402B的参数量,我为什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合适——虽然性能相似,但它的参数量只有32B。”
回溯至4月5日,meta在官方博客上宣布Llama 4系列模型面向社区开源,包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth,均首次采用混合专家(MoE)架构。其中,最受关注的Maverick版本拥有128个“专家”,170亿活跃参数(总参数为4000亿),meta将其描述为“同类最佳的多模态模型”。
然而,Llama 4发布后不久,情况便急转直下。首批用户对Llama 4的表现并不满意,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中,Maverick版本的正确率仅为16%,处于排行榜末尾,与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,如Google Gamma。
面对风评下滑和严厉质疑,meta团队迅速出面澄清。经手“后训练”的meta GenAI成员虞立成(Licheng Yu)表示,虚心聆听各方反馈,并希望能在下一版有所提升。他强调,meta从未为了刷点而针对测试集进行过度拟合。同时,meta GenAI的副总裁Ahmad Al-Dahle也在社交媒体上明确表示,meta没有在测试集上训练Llama 4。
尽管这些回应试图平息争议,但Llama 4的真实能力仍备受质疑。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手,Llama 4原本承载着开发者与产业界的高度期待。然而,它在发布一周内便从“高光”跌入“信任危机”,成为大模型竞赛中一次罕见的口碑“滑铁卢”。
追根究底,Llama 4的问题不在于造假,而在于开源大模型竞争加剧下的失速。过去两年,meta凭借Llama 2和Llama 3逐步在开源模型市场上建立起“领先、可靠”的认知。然而,随着DeepSeek V3/R1的发布,开源与闭源模型的差距被扭转,且开源模型的发展速度大大加快。这让原本作为“开源领导者”的Llama面临更大的压力。
meta也未能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非,但“首发”Chatbot Arena的目的却路人皆知。在参数规模膨胀、架构复杂化(MoE)的同时,Llama 4很可能没有留出足够的测试和改进时间,才导致发布后不稳定的性能表现。