字节跳动在近日于其火山引擎Force大会上揭晓了一项重要技术成果——豆包视觉理解模型。这款模型为企业提供了一种极具成本效益的多模态大模型解决方案,标志着AI技术在商业应用领域的又一重大突破。
据悉,豆包视觉理解模型以其低廉的价格吸引了广泛关注。具体而言,处理一千个tokens的费用仅为三厘,这意味着一元人民币足以处理约284张720P分辨率的图片。这一价格相较于市场同类服务,降低了高达85%,极大地降低了企业采用AI技术的门槛。
火山引擎总裁谭待在会上指出,豆包视觉理解模型不仅具备高精度的视觉内容识别能力,还展现了卓越的理解与推理能力。它能够基于图像信息执行复杂的逻辑运算,包括但不限于分析图表、处理编程代码以及解答学科难题等。
目前,豆包视觉理解模型已顺利接入豆包App及其PC端产品,为用户提供更加智能、高效的视觉处理服务。字节跳动还透露,豆包视频生成模型的1.5版本将于2025年春季发布,新版本将具备更强大的长视频生成能力。同时,豆包端到端实时语音模型也即将上线,进一步拓展其AI技术的应用场景。
在合作方面,豆包大模型已赢得了八成主流汽车品牌的青睐,并与多家手机、PC等智能终端制造商建立了合作关系。据统计,豆包大模型已覆盖约3亿台终端设备,且在短短半年内,来自智能终端的模型调用量激增了100倍,充分展示了其强大的市场影响力和应用潜力。