在近日举办的火山引擎Force大会上,字节跳动公司正式揭晓了其最新的技术创新——豆包视觉理解模型。这一多模态大模型旨在为企业提供高性价比的视觉理解解决方案,其价格优势尤为显著,据称,处理千个tokens的成本仅为3厘,而处理284张720P图片的费用更是低至1元,这一价格相较于行业平均水平低了85%。
火山引擎总裁谭待在会上详细介绍了豆包视觉理解模型的独特之处。他指出,该模型不仅能够精确识别图像内容,还具备强大的理解和推理能力,可以执行复杂的逻辑计算任务,例如分析图表、处理代码以及解答学科问题。豆包模型在视觉描述和创作方面同样表现出色。
在豆包大模型系列产品的更新方面,同样传来了好消息。豆包通用模型pro已经实现了与GPT-4o的全面对齐,但其使用价格仅为后者的八分之一。音乐模型则从原先的生成60秒简单结构升级为了能够生成3分钟的完整音乐作品。而文生图模型2.1版本更是实现了业界首次的精准生成汉字和一句话P图的产品化能力,这一版本已经成功接入了即梦AI和豆包App。
火山引擎大会还透露,豆包视频生成模型1.5版将在2025年春季推出,新版本将具备更强的长视频生成能力。同时,豆包端到端实时语音模型也将很快上线,届时将解锁多角色演绎、方言转换等一系列新功能。谭待表示,尽管豆包大模型发布时间相对较晚,但其在短时间内实现了快速的迭代和进化,目前已经成为国内技术最全面、最领先的大模型之一。
从数据上看,豆包通用模型的市场表现同样亮眼。截至12月中旬,其日均tokens使用量已经超过了4万亿,相较于七个月前首次发布时增长了33倍。这一数据表明,大模型应用正在加速渗透到各行各业,成为推动数字化转型的重要力量。
豆包大模型在智能终端领域的表现也颇为抢眼。目前,该模型已经与八成主流汽车品牌建立了合作关系,并成功接入了多家手机、PC等智能终端,覆盖终端设备数量约3亿台。在半年时间内,来自智能终端的豆包大模型调用量实现了100倍的增长。