百度全球首创截断注意力模型SMLTA，识别相对准确率飙升15%

时间：2019-01-16 17:58:33 来源：洞察网编辑：星辉 IP：北京 发表评论无障碍通道

1月16日，在百度输入法发布会现场，百度公布了语音领域的四项重大突破，其中在线语音领域全球首创的流式多级的截断注意力模型(SMLTA)，尤为瞩目，打破了注意力模型在语音业界大规模部署的良久沉寂。

众所周知，语音领域Attention模型(注意力模型)的提出已有好几年的时间了。注意力模型的核心思想，是通过机器学习的方法，把一句话中每个音节或者汉字的音频特征，从整句话的音频特征中，通过机器学习的方法，自动的挖掘出来。这样建模过程，其实是在一句话的一段时间长度是上百帧的连续音频流和十几个汉字识别结果之间，建立了直接基于深度学习的直接映射关系。语音识别过程，也变成了一个字一个字的滚动生成过程。这样的建模完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模，从而公认的有更高的建模精度。

近几年，不少专家和学者都在语音识别任务中尝试了注意力模型，实验室环境下，相对于传统技术，也获得到了一系列的提升。但是截止目前，注意力模型在在线语音服务中的大规模使用，一直鲜有成功案例。究其原因，是因为语音识别的注意力模型存在如下的两个问题：

1. 流式解码的问题。传统的Attention模型大都是基于整句的建模，比较有代表性的是谷歌的LAS模型。如果在线语音识别采用整句Attention建模，这就客观上要求语音都上传到服务器后，才能开始声学打分计算和解码，这样势必引入较长的用户等待时间，影响用户体验，同时也没办法完成实时语音交互的任务。一些研究工作虽然能够实现流式注意力模型，也就是说可以一边上传语音，一边根据局部上传的语音片段，来计算注意力模型的得分(比如谷歌的Neural Transducer技术)，从而得到部分的识别结果。但是这些技术的模型精度都会低于整句的注意力模型，最终也影响用户体验。

2. 长句建模的精度下降问题。传统注意力模型的核心思想是基于整句的全局信息，通过机器学习的方法，选择出和当前建模单元最匹配的特征。句子越长，进行特征选择的难度越大。出错的概率越高，错误前后传导的概率也越高。

基于以上两个因素，工业界需要一种全新的注意力模型，能够随着语音数据的流式的上传，实现流式的注意力建模和解码，从而减少用户等待识别结果的时间，使得实时的在线语音交互成为可能。同时随着输入语音数据的不停的加长，能够对连续语音流进行截断，保证注意力模型更加聚焦，提升长句语音识别的建模的精度。

百度在业界第一次创新性的提出了流式多级的截断注意力模型SMLTA，这是全世界范围内，第一次基于Attention技术的在线语音识别服务的大规模上线。也是百度AI技术的工业落地，领跑全行业的重要例证。这项技术的四大创新点在于：截断、流式、多级、基于CTC & Attention。

具体而言，是使用CTC(一种语音识别算法)的尖峰信息对连续语音流进行截断，然后在每一个截断的语音小段上进行当前建模单元的注意力建模。这样把原来的全局的整句Attention建模，变成了局部语音小段的Attention的建模。同时，为了克服CTC模型的不可避免的插入删除错误对系统造成的影响，该算法引入一种特殊的多级Attention机制，实现特征层层递进的更精准的特征选择。最终，这种创新的建模方法的识别率不但超越了传统的全局Attention建模，同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。这也是第一次有公开报道,局部的Attention建模，有可能超过全局的Attention建模。

百度已成功将这种注意力模型部署上线到语音输入法全线产品，服务中国数亿用户。这是世界范围内已知的第一次大规模部署的用于在线语音输入的注意力模型。在工程上，实现了低成本上线，所有计算全部通过CPU实现，不需要额外增加GPU，机器的耗费和传统CTC模型相当。最后在输入法精度上，大量数据测试结果显示，相对于原有的Deep peak2的CTC系统，相对准备率提升了15%。

高性能、低功耗，百度这次推出的流式多级的截断注意力模型SMLTA，无疑是中文在线语音识别历史上的又一次突破。

除在线语音领域以外，百度的语音技术还在离线语音、中英混合输入、普通话方言混合输入方面取得了突破。目前百度输入法离线语音输入准确率已高于行业平均水平35%，保证你在没网的情况下实现输入法的流畅快速使用。技术创新还使得百度输入法「中英自由说」成为在完全不影响中文语音输入准确率的情况下，唯一实现高精准的中英文混合语音识输入。「方言自由说」还将普通话和六大方言融合成一个语音识别模型，不单普通话和方言之间不再需要切换，方言和方言之间也不用再切换，随时随地，想咋说咋说。

自2012年以来，百度语音识别技术一直在该领域不断深入探索、创新突破。不单是实现识别准确率的提升，其技术路径的选择亦在引领行业。去年也是在输入法发布会上，百度语音发布的Deep Peak 2模型突破了沿用十几年的传统模型，能够更充分地发挥神经网络模型的参数优势，大幅提升各场景下识别准确率。时隔一年，百度语音技术团队再次实现重大技术创新。

“我们有一个理念，技术只有在产品上使用、让用户真正体验到才是真正的技术，我们绝不会为了技术而技术。”百度语音技术部总监高亮发布会上如是说。

官方称，新系统将分别由即将上市的vivo X300系列、iQOO 15以及vivo WATCH GT 2首发搭载。该系统构建覆盖Agent框架、蓝心大模型与平台服务的全链路智慧能力，将AI原生体验便捷拓展至更…

IT之家 10 月 10 日消息，据外媒 The Verge 今日报道，贝尔金在 2025 年 CES 大展上发布的 StagePowerGrip 现已在海外开售，售价 79.99 美元（IT之家注：现汇率…

Intel新一代Panther Lake、Clearwater Forest处理器都将首次引入Intel18A工艺，用于其中的CPU计算模块，未来的新一代性能核至强Diamond Rapids预计也会上18…

更巧妙的是，对「陀螺仪」这一早已习以为常的元器件，OriginOS 6做出了新的利用：在不同界面中，随着手机轻轻摆动，屏幕会呈现出细微的明暗变化，仿佛光线也随视角而转。手指按下去，光亮起来；手机倾斜，画…

作为一款大型服务器处理器，Clearwater Forest在采用了Intel18A制程的同时，也延续了Chiplet设计，并通过英特尔的Forveros Direct 3D先进封装技术整合在一起。 Cl…

2025 年 10 月 9 日，荣耀手机正式官宣，“开新局・见未来”荣耀 Magic8 系列暨 Magic OS 10 发布会将于 10 月15 日举办。随着荣耀 Magic8 系列官宣，其全系外观同步亮…

目前量产的三折叠屏手机仅有华为有，虽然例如传音、三星均曾经展示过三折叠的概念机，但是量产机迟迟没有上市。近日，三星三折叠 Galaxy Z TriFold的专利曝光，根据爆料消息，这款机型预计最早将在11月…

第一个变化是它在 L3 缓存环上带来了最多 8 个 E 核，因此 Panther Lake芯片上拥有更大的18MB的L3 缓存，可供Cougar Cove P-Core和 Darkmont E-Core访问…

快科技10月10日消息，《战地6》即将上线，EA、DICE公布了PC版的最终配置需求，除了最低、推荐、Ultra，还新增加了一个Ultra++级别，后三档还都分了两个级别。最低配置就不看了，不过有趣的是In…

该公司的产品大多为多功能音箱，在功能上更加丰富，例如可能具备白噪音功能，帮助用户放松身心、改善睡眠。多功能手机支架无线充音箱的价格因品牌、功能、质量等因素而异。其产品在功能、质量、价格、品牌等方面都表现出色，…

像真我Neo7、iQOO Z10 Turbo Pro、还有最近热度极高的REDMI K80 至尊版都是“实打实”的强悍之选。搭载天玑9400+旗舰芯片的REDMI K80 至尊版现在价格跌到了1835元，买…

除了基本的蓝牙连接播放音乐和可折叠支撑手机的功能外，一些产品还带有无线充电功能，让用户在使用手机的同时还能为其充电，大大提高了产品的实用性。音质出色虽然体积不大，但一些优质的蓝牙音箱折叠手机支架在音质方面表…

安兔兔发布9月安卓手机性价比排行榜，小米再次成为最大赢家，从百元价位到旗舰垄断。在4000元以上价位，小米17成功拿下性价比冠军，华为却没有上榜，雷军圆梦坐稳高端市场，国产手机行业又迎来新一轮变化。有爆料称R…

快科技10月10日消息，今天上午，vivo全新系统OriginOS 6亮相，该系统首发蓝河流畅引擎，是蓝厂史上最流畅的手机系统。以使用3年后搭载蓝河流畅引擎Beta版的vivo X90为例，跟出厂时搭载Or…

这款护理机还融入了人工智能技术，能够智能感知衣物面料、长短、湿度，自动选择合适的护理程序。松下阿尔法衣物护理机还具备除菌螨功能，能够有效去除衣物上的过敏原，呵护敏感肌肤。这款产品还特别考虑了用户便利性，…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.