ITBear旗下自媒体矩阵:

百度发布全新语音大模型,成本大降50%-90%,交互体验再升级!

   时间:2025-03-31 17:15:06 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在今日的百度AI DAY盛会上,百度公司震撼发布了其首个基于创新互相关注意力(Cross-Attention)机制的端到端语音语言大模型。这一突破性技术不仅在电话语音问答场景中实现了超低时延与超低成本,还使得调用成本较行业平均水平显著降低了50%至90%。

与此同时,百度旗下的文小言品牌也迎来了焕新时刻,率先接入了这一前沿模型。文小言不仅迎来了多模型融合调度、图片问答等功能上的全面升级,更在语聊效果上实现了拟真度的飞跃。此次升级后,文小言支持重庆、广西、河南、广东、山东等多地特色方言,进一步拓宽了使用场景。

据百度介绍,该语音大模型在训练和使用成本上极具优势,推理响应速度极快,将用户等待时长从行业常见的3-5秒缩短至约1秒,极大地提升了语音交互的流畅性。这一技术突破,无疑将为用户带来更加高效、便捷的语音交互体验。

更新后的文小言还支持“多模型融合调度”功能,整合了百度自研的文心X1、文心4.5等模型,并接入了DeepSeek-R1等第三方优质模型。用户可以根据需求选择“自动模式”,一键调用最优模型组合,或者选择特定模型完成特定任务,从而进一步提升响应速度与任务处理能力。

文小言的图片问答功能也得到了显著加强。用户只需拍摄或上传图片,即可通过文字或语音提问,直接获取深度解析。这一功能不仅适用于数学题目的实时解析,还能帮助用户对比商品参数、价格,辅助购物决策。

为了满足用户对图片多维解读的需求,文小言还新增了“图个冷知识”功能。用户可以预设“历史学者”、“科技达人”等人设视角,为同一图片赋予不同维度的解读。例如,当用户询问“猫为何偏爱窗边”时,文小言能从狩猎本能、能量获取、领地意识等多个角度给出独特且有趣的解读。

百度语音首席架构师贾磊在活动中透露,这是百度在业界首个推出的基于全新互相关注意力(Cross-Attention)机制的端到端语音语言大模型。他表示:“在满足一定交互指标的前提下,该大模型的调用成本远低于行业平均水平,推理响应速度极快,将语音交互等待时间压缩至约1秒,极大提升了交互的流畅性和用户体验。同时,在大模型的加持下,我们实现了流式逐字的LLM驱动的多情感语音合成,使得语音交互更加情感饱满、逼真且拟人化。”

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version