滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

字节开源FullStack Bench，全栈编程大模型基准新升级！

时间：2024-12-05 15:28:51 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在AI编程领域，一场关于模型能力评估的变革正在悄然进行。近日，字节跳动旗下的豆包大模型团队携手M-A-P开源社区，共同推出了一个名为FullStack Bench的全新代码评估基准，旨在更全面地衡量大模型在真实世界中的代码开发能力。

FullStack Bench的出现，是对当前代码评估基准的一次重要升级。以往，诸如Humaneval和MBPP等主流评测集，大多聚焦于基础编程和高级编程问题，而DS-1000则更侧重于数据分析和机器学习任务，且仅针对Python语言。xCodeeval虽然覆盖的任务类型较多，但也基本局限于高级编程和数学领域。这些评测集在应用类型和编程语言上的局限性，使得它们难以充分反映真实世界代码开发场景的多样性和复杂性。

为了打造一个更贴近真实全栈开发环境的评估基准，豆包大模型团队与M-A-P开源社区从全球最大的程序员技术问答社区Stack Overflow中抽取了海量问题进行分析。经过严格的筛选和调整，他们最终确定了超过11种应用场景，并构建了包含3374个问题的FullStack Bench数据集。这些问题不仅涵盖了编程全栈技术中的多个真实场景，还涉及16种编程语言，从而能够更有效地评估大模型在现实世界中的代码开发能力。

在FullStack Bench数据集中，每个问题都包含了题目描述、参考解决方案及单元测试用例，总计15168个单元测试。为确保评估的准确性，这些问题均由相关领域的编程专家精心设计，并经过AI和人工的双重验证。豆包大模型团队还根据主流代码大模型的测试结果，对数据集进行了进一步的交叉评估和完善，以确保其质量和实用性。

除了FullStack Bench数据集外，豆包大模型团队还开源了一款名为SandboxFusion的代码沙盒执行工具。这款工具能够高效地评估来自不同语言的不同编程任务，并兼容超过10种广泛使用的代码评估数据集，支持23种编程语言。开发者只需在单服务器上即可轻松部署SandboxFusion，也可直接在GitHub上进行体验，从而大大简化了对大模型代码能力的系统性测试过程。

在发布FullStack Bench数据集和SandboxFusion工具的同时，字节代码大模型也首次亮相。豆包大模型团队对全球20余款代码大模型及语言大模型的编程表现进行了评测，其中包括他们自研的豆包代码大模型Doubao-Coder。这一评测结果不仅展示了豆包大模型在编程能力上的优势，也彰显了字节跳动在代码大模型领域的深厚积累和快速进步。

事实上，近半年来，字节跳动在代码大模型领域取得了显著进展。今年6月，他们发布了由自研代码基座模型支撑的AI编程助手豆包MarsCode。这款助手能够为用户提供高质量的代码生成服务，目前每月已为用户贡献百万量级的代码量。FullStack Bench数据集和SandboxFusion工具的推出，无疑将进一步推动字节跳动在代码大模型领域的创新和发展。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

12-19

天阳科技与SS&C携手，亿元打造Algorithmics软件独家信创版

12-19

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

12-19

讯飞智作斩获猎云网2024“年度生成式AI创新”大奖，AIGC未来可期

12-19

荣耀MagicOS 9.0升级全解析：新功能适配进度与长焦拍照优化进行时

12-19

闪极AI“拍拍镜”来袭：智能眼镜新体验，售价999元起接入大模型

12-19

闪极AI拍拍镜震撼上市！国内首款量产，售价仅999元起

12-19

苹果中国AI大模型合作引关注，字节腾讯谁将脱颖而出？

值得一题的是，12月19日，北京智源人工智能研究院（智院研究员）发布国内外100余个开源和商业闭源模型多份评测结果，作为今年英伟达全球第二大买家、拥有23万张GPU的字节跳动豆包大模型名列前茅，语言模型结果…

12-19

张一鸣私募新动作，重心已悄然转向大模型与AI战略？

12-19

算力硬件引领市场热潮，豆包概念股能否持续走强？

12-19

市场分化算力硬件爆发，抖音微信小店概念股活跃，后市如何演绎？

12-19

北证50深V反转，AI硬件与微信小店成市场新宠？

12-19

OpenAI Canvas大升级：React渲染与文本格式化新工具来袭

12-19

OpenAI新招！ChatGPT热线电话服务上线，老年机座机也能聊

12-19

AMD苏姿丰领投，Liquid AI崛起：机器人之母带队，AI赛道再掀狂澜

12-19

点击查看更多 +

全站最新

“王妃”炫富带货后集体消失，网友直呼：别再消耗我们的善良！

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

打假人王海遭品牌起诉，道歉后又要反诉，这场“打假”战何时休？

余承东透露：鸿蒙智行受车厂热捧，资源有限难以满足所有合作需求

余承东回忆：与北汽合作始于2017年一张PPT开启华为汽车梦

荣耀Magic7 RSR保时捷设计：100倍AI长焦，样张细节震撼曝光！

热门内容

本栏最新

苹果AI寻中国“盟友”，腾讯字节谁能“入果”？iPhone创新何在？

天阳科技与SS&C携手，亿元打造Algorithmics软件独家信创版

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

讯飞智作斩获猎云网2024“年度生成式AI创新”大奖，AIGC未来可期

荣耀MagicOS 9.0升级全解析：新功能适配进度与长焦拍照优化进行时

闪极AI“拍拍镜”来袭：智能眼镜新体验，售价999元起接入大模型

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.