滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

智源评测百模生态，透视大模型能力新高度与变局

时间：2024-12-19 18:28:33 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在2024年末的科技舞台上，智源研究院再度引领了一场关于人工智能大模型的深度评测盛宴。此次评测不仅覆盖了国内外100多个开源与商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型，还通过一系列综合及专项评测，全面揭示了当前大模型技术的最新进展与实际应用潜力。

相较于今年早些时候的评测，智源研究院此次在评测任务上进行了显著的扩展与深化。新增的数据处理、高级编程及工具调用能力评估，首次将金融量化交易场景纳入考量，并创新性地引入了基于模型辩论的对比评测方式，旨在更深入地剖析模型的逻辑推理、观点理解及语言表达等核心能力。

评测结果显示，2024年下半年，大模型的发展重心明显转向了综合能力的提升与实际应用。多模态模型异军突起，涌现出众多新厂商与新模型，而语言模型的发展则相对放缓。在开源生态中，除了持续坚定的开源倡导者，还出现了新的开源贡献力量。

在语言模型方面，尽管针对一般中文场景的开放式问答或生成任务已趋于稳定，但在复杂场景任务中，国内头部语言模型与国际一流水平仍存在明显差距。主观评测中，字节跳动Doubao-pro-32k-preview与百度ERNIE 4.0 Turbo分列前两位，而客观评测则由OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest领跑。

视觉语言多模态模型方面，尽管开源模型的架构趋于一致，但性能表现却大相径庭。较好的开源模型在图文理解任务上正逐步缩小与头部闭源模型的差距，但在长尾视觉知识与文字识别以及复杂图文数据分析方面仍有待提升。评测中，OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028表现突出。

文生图多模态模型方面，头部模型已具备中文文字生成能力，但复杂场景人物变形仍是普遍问题。腾讯Hunyuan Image在评测中拔得头筹，字节跳动Doubao image v2.1与Ideogram 2.0紧随其后。

文生视频多模态模型则呈现出画质提升、动态性增强、镜头语言丰富的特点，但动作变形、物理规律理解不足等问题依旧存在。快手可灵1.5（高品质）、字节跳动即梦 P2.0 pro等模型在评测中表现优异。

语音语言模型得益于文本大模型的进步，能力提升显著，但开源模型中性能好、通用能力强的仍较少。阿里巴巴Qwen2-Audio在专项评测中位居榜首，香港中文大学与微软合作的WavLLM、清华大学与字节跳动合作的Salmon同样表现不俗。

智源研究院还联合海淀区教师进修学校新编了K12全学段、多学科试卷，以考察大模型与人类学生的能力差异。结果显示，尽管模型在多模态能力的带动下综合得分有所提升，但仍与海淀学生平均水平存在差距，且普遍存在“文强理弱”的现象。

智源研究院此次评测还探索了基于实际应用场景的全新方法，通过评测模型的量化代码实现能力，探索其在金融量化交易领域的潜在应用。评测发现，头部模型已接近初级量化交易员的水平，深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06等模型在评测中表现突出。

作为评测体系的重要组成部分，智源研究院的Flageval平台经过数次迭代，已覆盖全球800多个开闭源模型，包含20多种任务、90多个评测数据集及超200万条评测题目。在评测方法与工具上，智源研究院联合多所高校和机构，探索了基于AI的辅助评测模型FlagJudge及灵活全面的多模态评测框架FlagevalMM，为评测提供了有力支持。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

12-19

天阳科技与SS&C携手，亿元打造Algorithmics软件独家信创版

12-19

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

12-19

讯飞智作斩获猎云网2024“年度生成式AI创新”大奖，AIGC未来可期

12-19

荣耀MagicOS 9.0升级全解析：新功能适配进度与长焦拍照优化进行时

12-19

闪极AI“拍拍镜”来袭：智能眼镜新体验，售价999元起接入大模型

12-19

闪极AI拍拍镜震撼上市！国内首款量产，售价仅999元起

12-19

苹果中国AI大模型合作引关注，字节腾讯谁将脱颖而出？

值得一题的是，12月19日，北京智源人工智能研究院（智院研究员）发布国内外100余个开源和商业闭源模型多份评测结果，作为今年英伟达全球第二大买家、拥有23万张GPU的字节跳动豆包大模型名列前茅，语言模型结果…

12-19

张一鸣私募新动作，重心已悄然转向大模型与AI战略？

12-19

算力硬件引领市场热潮，豆包概念股能否持续走强？

12-19

市场分化算力硬件爆发，抖音微信小店概念股活跃，后市如何演绎？

12-19

北证50深V反转，AI硬件与微信小店成市场新宠？

12-19

OpenAI Canvas大升级：React渲染与文本格式化新工具来袭

12-19

OpenAI新招！ChatGPT热线电话服务上线，老年机座机也能聊

12-19

AMD苏姿丰领投，Liquid AI崛起：机器人之母带队，AI赛道再掀狂澜

12-19

点击查看更多 +

全站最新

“王妃”炫富带货后集体消失，网友直呼：别再消耗我们的善良！

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

打假人王海遭品牌起诉，道歉后又要反诉，这场“打假”战何时休？

余承东透露：鸿蒙智行受车厂热捧，资源有限难以满足所有合作需求

余承东回忆：与北汽合作始于2017年一张PPT开启华为汽车梦

荣耀Magic7 RSR保时捷设计：100倍AI长焦，样张细节震撼曝光！

热门内容

本栏最新

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

天阳科技与SS&C携手，亿元打造Algorithmics软件独家信创版

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

讯飞智作斩获猎云网2024“年度生成式AI创新”大奖，AIGC未来可期

荣耀MagicOS 9.0升级全解析：新功能适配进度与长焦拍照优化进行时

闪极AI“拍拍镜”来袭：智能眼镜新体验，售价999元起接入大模型

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.