在AI编程领域,一场关于模型能力评估的变革正在悄然进行。近日,字节跳动旗下的豆包大模型团队携手M-A-P开源社区,共同推出了一个名为FullStack Bench的全新代码评估基准,旨在更全面地衡量大模型在真实世界中的代码开发能力。
FullStack Bench的出现,是对当前代码评估基准的一次重要升级。以往,诸如Humaneval和MBPP等主流评测集,大多聚焦于基础编程和高级编程问题,而DS-1000则更侧重于数据分析和机器学习任务,且仅针对Python语言。xCodeeval虽然覆盖的任务类型较多,但也基本局限于高级编程和数学领域。这些评测集在应用类型和编程语言上的局限性,使得它们难以充分反映真实世界代码开发场景的多样性和复杂性。
为了打造一个更贴近真实全栈开发环境的评估基准,豆包大模型团队与M-A-P开源社区从全球最大的程序员技术问答社区Stack Overflow中抽取了海量问题进行分析。经过严格的筛选和调整,他们最终确定了超过11种应用场景,并构建了包含3374个问题的FullStack Bench数据集。这些问题不仅涵盖了编程全栈技术中的多个真实场景,还涉及16种编程语言,从而能够更有效地评估大模型在现实世界中的代码开发能力。
在FullStack Bench数据集中,每个问题都包含了题目描述、参考解决方案及单元测试用例,总计15168个单元测试。为确保评估的准确性,这些问题均由相关领域的编程专家精心设计,并经过AI和人工的双重验证。豆包大模型团队还根据主流代码大模型的测试结果,对数据集进行了进一步的交叉评估和完善,以确保其质量和实用性。
除了FullStack Bench数据集外,豆包大模型团队还开源了一款名为SandboxFusion的代码沙盒执行工具。这款工具能够高效地评估来自不同语言的不同编程任务,并兼容超过10种广泛使用的代码评估数据集,支持23种编程语言。开发者只需在单服务器上即可轻松部署SandboxFusion,也可直接在GitHub上进行体验,从而大大简化了对大模型代码能力的系统性测试过程。
在发布FullStack Bench数据集和SandboxFusion工具的同时,字节代码大模型也首次亮相。豆包大模型团队对全球20余款代码大模型及语言大模型的编程表现进行了评测,其中包括他们自研的豆包代码大模型Doubao-Coder。这一评测结果不仅展示了豆包大模型在编程能力上的优势,也彰显了字节跳动在代码大模型领域的深厚积累和快速进步。
事实上,近半年来,字节跳动在代码大模型领域取得了显著进展。今年6月,他们发布了由自研代码基座模型支撑的AI编程助手豆包MarsCode。这款助手能够为用户提供高质量的代码生成服务,目前每月已为用户贡献百万量级的代码量。FullStack Bench数据集和SandboxFusion工具的推出,无疑将进一步推动字节跳动在代码大模型领域的创新和发展。