近日,meta公司高层亲自出面,对围绕其最新AI模型的一则不实传闻进行了澄清。传闻声称,meta在推出Llama 4 Maverick和Llama 4 Scout模型时,采取了不当手段,即在基准测试的“测试集”上进行了额外训练,以提升模型测试表现,并隐瞒了模型的不足。
meta公司生成式人工智能部门的副总裁艾哈迈德·阿尔·达赫勒,在社交平台X上发表声明,坚决否认了这一说法,称其为“毫无根据的谣言”。
在AI领域,测试集是专门用于评估模型训练后性能的数据集。若模型在测试集上进行训练,将会人为地提高基准测试分数,导致模型的实际能力被夸大。
传闻的起因,部分源于Maverick和Scout在某些任务上的不尽如人意,以及meta选择在基准测试平台LM Arena上使用未发布的实验版本Maverick以获得更好成绩的决定。研究人员发现,公开下载的Maverick版本与LM Arena上的版本在行为上存在显著差异,这进一步加剧了传闻的流传。
针对这一情况,阿尔·达赫勒承认,部分用户在通过不同云服务提供商使用Maverick和Scout模型时,确实遇到了“质量差异”的问题。他解释说:“我们急于将模型发布出去,因此预计需要几天时间才能确保所有公开版本都调整到位。目前,我们正在积极进行错误修复,并与合作伙伴紧密协作。”
阿尔·达赫勒进一步强调,meta始终致力于提供高质量的AI模型,对于此次出现的误解和不便,公司深感歉意,并将继续努力提升用户体验。