ITBear旗下自媒体矩阵:

豆包1.5深度思考模型发布:参数量大减,视觉理解强,数学编程领先国产模型

   时间:2025-04-17 17:41:23 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

火山引擎近日震撼发布豆包1.5深度思考模型,该模型采用先进的MoE架构,总参数量高达200B,但激活参数仅为20B,展现了卓越的性能与效率。在多个基准测试中,豆包1.5的表现均达到了或接近全球顶尖水平,标志着国产推理模型迈出了重要一步。

特别是在数学、编程及科学领域,豆包1.5深度思考模型展现出了超越国内其他推理模型如DeepSeek-R1、QwQ-32B的实力,其能力与OpenAI的o1、o3-mini-high等模型不相上下。尤为在极具挑战性的通用人工智能测试ARC-AGI上,豆包1.5的得分甚至超过了OpenAI的上述模型,彰显了其强大的推理与泛化能力。

豆包1.5深度思考模型不仅具备高效的推理能力,还拥有“边想边搜”和“视觉理解”等创新功能。企业用户即日起可在火山方舟平台上体验到这一模型。同时,火山引擎还升级了豆包文生图模型3.0和豆包视觉理解模型,为用户提供更多元化的服务。

数据显示,截至今年3月底,豆包大模型的日均tokens调用量已超过12.7万亿,较去年12月增长了3倍,与发布初期相比更是激增了106倍。据IDC报告,2024年中国公有云大模型调用量激增,火山引擎凭借46.4%的市场份额,稳居中国市场首位。

豆包1.5深度思考模型凭借其较小的参数量和激活参数量,实现了更低的训练和推理成本,即便在高并发场景下也能保持20毫秒的低延迟。其搜索能力尤为突出,不同于传统推理模型的“先搜索再思考”模式,豆包App通过定向训练,实现了“边想边搜”的智能化体验。

例如,在推荐露营装备时,豆包1.5深度思考模型能够拆解需求、规划信息、判断信息完备性,并自主补充搜索信息,最终给出预算范围内且细致周到的推荐方案。该模型还具备强大的视觉理解能力,能够结合文字与图像信息进行综合思考,如理解菜单内容、分析菜品组成、照顾不同口味和过敏食物等,为用户提供个性化的点餐建议。

火山引擎透露,为了提升豆包1.5深度思考模型的通用能力,模型团队优化了数据处理策略,融合了可验证数据与创意性数据,以满足各类任务的需求。同时,团队还采用了创新的双轨奖励机制进行大规模强化学习训练,有效提升了算法的可靠性与优化效率。

在权威基准测试上,豆包1.5深度思考模型同样表现出色。在数学测试中,其得分与OpenAI的o3-mini-high基本持平;在博士级推理难题测试集GPQA Diamond上,得分与OpenAI的o1、o3-mini-high仅有微小差距;在编程基准测试中,更是实现了接近或超越DeepSeek-R1的成绩。特别是在高难度通用人工智能测试ARC-AGI上,豆包1.5深度思考模型以39.9分的优异成绩大幅领先OpenAI的o1和o3-mini-high。

全新升级的豆包文生图模型3.0同样令人瞩目。该模型能够实现更好的文字排版、实拍级图像生成以及2K高清图片输出,广泛应用于影视、海报、绘画、玩偶设计等营销、电商、设计场景。在最新的文生图领域权威榜单Artificial Analysis竞技场中,豆包文生图3.0模型已跻身全球第一梯队。

新版本的豆包视觉理解模型也具备了更强的视觉定位能力,支持多目标、小目标、通用目标的框定位和点定位,以及定位计数、描述定位内容、3D定位等功能。该模型可应用于线下门店巡检、GUI agent、机器人训练、自动驾驶训练等多个领域。例如,通过发送一张草莓图片给豆包视觉理解模型,它能迅速数出草莓数量并框定其位置。

同时,新版本在视频理解能力上也取得了显著提升,包括记忆、总结理解、速度感知、长视频理解等。结合向量搜索技术,豆包视觉理解模型可直接对视频进行语义搜索,广泛应用于安防、家庭看护等商业化场景。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version