近日,火山引擎宣布其豆包大模型家族迎来全面升级,新增视频理解模型与3D生成模型,并对文生图模型、音乐模型以及通用模型pro进行了显著优化。同时,公司预告将在2025年春季推出豆包视频生成模型1.5版,该版本将具备更强的长视频生成能力,而豆包端到端实时语音模型也即将上线。
火山引擎此次推出的豆包·视频理解模型,在价格上极具竞争力,其输入价格定为每千Tokens 0.003元,相比行业平均水平降低了85%。这一价格意味着,用户仅需1元即可同时处理约284张720P分辨率的图片。目前,该模型已接入豆包App及PC端产品。
与此同时,豆包·3D生成模型也正式亮相。该模型与火山引擎的数字孪生平台veOmniverse结合使用,能够高效完成智能训练、数据合成以及数字资产制作,从而形成了一套支持AIGC创作的物理世界仿真模拟器。用户通过输入文本,即可实时生成3D场景和模型,极大地提升了创作效率与协作体验。
豆包家族的其他模型也迎来了不同程度的升级。通用模型pro已全面对齐GPT-4o的能力,但其使用价格仅为后者的1/8。音乐模型现已能够生成3分钟的完整音乐作品。而文生图模型2.1版本则在业界首次实现了精准生成汉字和一句话P图的产品化能力,并已接入即梦AI和豆包App。
火山引擎还对其火山方舟、扣子以及HiAgent三款平台产品进行了升级。火山方舟推出了大模型记忆方案、Prefix Cache和Session Cache API以及全域AI搜索,旨在帮助企业构建自身的AI能力中心,并高效开发AI应用。扣子1.5版本则提供了全新的AI应用开发环境、更强的多模态能力以及精品模板商店,进一步降低了构建AI应用的难度。HiAgent 1.5版本则提供了100多个行业应用模板以及全新的GraphRAG能力,使得可视化效果更加清晰。
火山引擎总裁谭待在会上公布了豆包大模型的最新成绩单。数据显示,豆包大模型的日均tokens增长使用量已超过4万亿,较首次发布时增长了33倍。大模型应用正加速向各行业渗透,豆包大模型已与八成主流汽车品牌合作,并在过去7个月内,汽车行业日均Tokens消耗增长了50倍。豆包大模型还已接入多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长了100倍。
豆包·视频理解模型不仅支持输入文本和图像问题,还能精准识别和理解视觉内容,并具备强大的推理能力。它可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。在火山引擎Force大会的现场演示中,豆包视频理解模型展示了其强大的功能,如识物解答、读报告、读代码、解读画作、找物品推荐穿搭等。
豆包·3D生成模型与veOmniverse的结合使用,使得用户可以通过输入文本快速搭建工厂车间等场景,显著提升创作效率。该模型支持文生3D、图生3D以及多模态生成,1分钟内即可生成高保真高质量的3D资产,并可实现复杂物品、物品组合大规模场景生成以及多模态3D资产编辑。
在文生图模型方面,火山引擎升级后的模型支持一键P图和一键海报功能。用户只需输入简单的自然语言,即可对图像进行换装、美化、涂抹、风格转化等修图工作。特别是“一句话轻松生成海报”功能,首次实现了精准中文文字生成,并能够生成更全面的描述、更精美的画面和排版。音乐模型也进行了升级,支持输入歌词生成完整的3分钟音乐作品,并合理运用旋律、节奏、和声等信息,使全曲保持连贯性。