随着2025年的脚步日益临近,各大社交平台纷纷推出年度回顾功能,而在人工智能领域,一场关于AI模型年度表现的评测也悄然落幕。近日,智源研究院公布了Flageval“百模”评测的详细结果,揭示了国产大模型与海外顶尖模型之间的激烈竞争态势。
评测结果显示,在闭源大模型的主观评测中,字节跳动的豆包通用模型pro脱颖而出,获得了最高分,展现了强大的中文对话能力。而OpenAI的o1-mini则在客观评测中独占鳌头,显示出其在逻辑推理和问题解决方面的卓越表现。多模态模型评测总榜的前三名被OpenAI的GPT-4o、字节跳动的豆包视觉理解模型和Anthropic的Claude 3.5 Sonnet占据,体现了多模态技术领域的快速发展。
本次评测涵盖了语言、视觉语言、文生图、文生视频、语音语言等多个领域的大模型,共计超过100个开源和商业闭源模型参与。评测不仅考察了AI模型的任务解决能力,还新增了对真实金融量化交易场景应用能力和辩论能力的评估,以全面衡量AI模型的实用性和智能化水平。
值得注意的是,为了降低数据集泄露风险和提高评测的公正性,智源研究院在评测过程中吸纳了最新发布的数据集,持续动态更新评测数据,并替换了98%的题目,提升了题目的难度。这一举措不仅保证了评测的准确性和有效性,也为AI模型的发展提供了更加真实和具有挑战性的测试环境。
在国产大模型方面,多款模型的综合能力超过了海外知名模型。在闭源大模型主观评测中,豆包通用模型pro、百度ERNIE 4.0 Turbo等国产模型占据了榜单的大部分席位,显示出国产大模型在中文语言能力上的普遍优势。然而,在客观评测中,国产大模型与OpenAI等海外模型之间仍存在一定差距,主要体现在推理、数学、代码等方面的能力上。
多模态评测也成为了本次评测的一大亮点。国产大模型在视觉语言、文生图、文生视频等领域展现出了不俗的实力。其中,豆包视觉理解模型在视觉语言评测中名列前茅,而腾讯Hunyuan Image和快手可灵1.5则在文生图和文生视频评测中分别获得了全球第一的好成绩。
除了传统评测项目外,本次评测还新增了对AI模型辩论能力和金融量化交易能力的考核。在辩论能力评测中,AI模型普遍缺乏辩论框架意识,但更擅长反驳辩题。而在金融量化交易领域,AI模型已具备生成有回撤收益的策略代码的能力,部分模型的能力已接近初级量化交易员的水平。这一结果不仅展示了AI模型在金融领域的巨大潜力,也为未来的金融创新和智能化转型提供了有力支持。
随着AI技术的不断发展和应用领域的不断拓展,国产大模型与海外模型之间的竞争将更加激烈。未来,AI模型的发展将更加注重实际应用和商业化落地,催熟商业化落地的效率和效益将成为新的竞争焦点。在这场“百家争鸣”中,国产大模型需要继续巩固自身优势,同时积极探索新的应用场景和技术创新,以在激烈的市场竞争中脱颖而出。