在人工智能领域的一次重大进展中,字节旗下的豆包大模型在2024年末全面展示了其跨领域的技术飞跃。自今年5月首次亮相以来,短短七个月内,豆包大模型在通用语言处理、视频生成、语音交互以及视觉理解等多个维度上,均取得了与国际顶尖技术并跑的成就。
最新版本的豆包通用模型——Doubao-pro-1215,其综合能力相较于5月版本提升了32%,并已全面对标GPT-4o。尤其在处理数学难题及专业知识等复杂任务时,豆包模型的表现甚至更为出色。这一显著进步得益于团队在数据优化、模型稀疏度提升、强化学习引入以及系统性工程优化等方面的不懈努力。Doubao-Pro在保持高性能的同时,实现了推理服务价格的大幅降低,仅为GPT-4o的八分之一。
在图像与视频处理领域,豆包大模型团队于9月推出了PixelDance与Seaweed两款视频生成模型,它们擅长精准理解复杂提示词、保持镜头一致性、实现多交互主体灵活控制。同时,豆包文生图模型持续迭代,新增了通用图像编辑功能,使得“一句话P图”和“一键生成海报”成为可能。12月发布的Doubao-vision视觉理解模型,更是将视觉与语言深度结合,实现了多感官的思考与创作,其在十多个主流数据集上的表现与Gemini 2.0和GPT-4o相当。
语音方面,豆包大模型团队推出了全新的语音识别模型Seed-ASR和语音生成基座模型Seed-TTS,通过引入多样化数据、融合推理链,赋予了模型强大的泛化能力。豆包语音模型不仅能听懂20种以上方言夹杂的对话,还能在会话中表达情感,保留人类习惯,如吞音、口音等,且在交互中可随时被打断,实现了更加自然流畅的语音交互。
更进一步的是,豆包大模型已具备高品质的“唱作”能力,从词曲编辑、演奏生成到人声演唱,一个AI就能组成一个乐队。这背后依托的是Seed-Music音乐生成模型框架,它结合了语言模型与扩散模型的优势,实现了音乐生成的通用框架,并提供了极高的编辑可控性。
豆包大模型团队还首次披露了其300万字窗口的长文本处理能力,能够轻松阅读上百篇学术报告,每百万tokens的处理延迟仅需15秒,这一性能达到了业界的极限水平。这一成就得益于STRING等上下文关联数据算法和模型加速优化的支持,使得LLM能够更有效地利用海量外部知识,并通过稀疏化及分布式方案将时延降至十秒级。
在代码能力方面,豆包代码大模型Doubao-coder的编程能力达到了专业级水平,支持超过16种编程语言及11类真实应用场景,满足全栈编程开发需求,包括前后端开发、机器学习等。
豆包大模型团队在AI基础研究方面也取得了显著成果。过去几个月里,团队有57篇论文入选ICLR、CVPR、NeurIPS等国际顶级会议,并发布了下载量超百万的开源项目及GitHub上的热门项目。同时,团队与近20所高校建立了深入合作关系,支持了40多位顶尖学者参与关键AI技术的研发,并与清华大学AIR、北京大学分别成立了联合实验室。
为了储备最具潜力的研究人才,豆包大模型团队启动了“Top Seed人才计划”,在全球范围内招募顶尖博士毕业生加入,共同挑战世界级AI课题。目前,豆包大模型的相关技术能力已支撑了包括豆包APP、即梦、豆包MarsCode等在内的50多个C端应用场景,其中豆包APP已成为国内备受欢迎的AI产品。通过火山引擎,豆包大模型还服务了30多个行业,日均tokens调用量超过4万亿,较5月发布时增长了33倍。