ITBear旗下自媒体矩阵:

讯飞输入法语音输入升级现真功 除了高效准确还能随心说

   时间:2019-01-24 16:50:25 来源:互联网编辑:星辉 发表评论无障碍通道

说起人工智能AI,一般看到的都是上天下地的机器人、计算机视觉、自动驾驶之类,电影电视就更夸张了,动不动就出现AI威胁论这样的情节。但实际上,AI应用并没有局限在这些看似“高大上”的领域中,相反的,逐渐成为大多数人“触手可及”的便利,比如手机输入法。日前讯飞输入法新版已经支持中英混合语音输入,对普通话与七种方言口音的混合语音输入效果进行了优化,“动口不动手”的未来近在眼前。

D:\工作文档\文案\201901汇总\AndroidV8.1.8433新版\V8.1.8433应用截图\V8.1.8432应用截图\VIVO应用市场测试宣传图\vivo市场截图-assets\vivo市场截图-assets\2.png

如今,语音输入又快又准,似乎没什么不足。据最新第三方输入法报告显示,用户对语音输入除了要求“高效准确”,还要求“简单便捷”。譬如,职场上时不时说中文夹杂英文,回家后说普通话自然接上家乡话!所以上班说事切换到英文识别模式,回家切换到对应的方言模式。如果想拥有“雅俗共赏”的沟通效果,那可能就麻烦了,需要在中英、英中、普通话与方言、方言与普通话、英文与方言中循环往复地手动切换操作。

众多周知,讯飞输入法语音输入速度1分钟400字,语音识别准确率高达98%,支持23种方言语音输入,日前上线了语音输入『随心说』,解决了频繁切换识别模式的痛点。这个『随心说』已经实现中英混合语音输入,也优化了东北话/天津话/河南话/河北话/山东话/皖北话/四川话七种方言与普通话的混合语音输入效果。这是怎么做到的?

据悉,此次讯飞输入法在深度全序列卷积神经网络语音识别框架基础上,将传统卷积使用扩张卷积代替,让每个卷积输出都包含更大范围的信息,从而使得模型实现对语音长时相关性的更精确的表达。与此同时,还引入基于长短期记忆网络的门控机制使得Hybrid CNN在长时相关性建模的过程中,能快速过滤噪声等干扰信息,并加强语境等长时信息,从而在实际应用中能够保障复杂场景的语音识别效果。

另一个重要的地方在于,Hybrid CNN模型真正实现了端到端的建模,此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但在输入端仍然采用人工设计的特征,在特殊场景下难免会损失信息。科大讯飞这次以原始音频波形直接建模,避免了人工设计的特征提取过程带来的信息损失,真正的实现了端到端建模,进一步的提升了识别效果。

从实用性上考虑,Hybrid CNN新一代语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题,比较容易实现大规模并行化运算,在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在手机等设备上流畅的运行,带来的好处还包括使本地化语音的识别效果更加接近云端识别效果。

这两年处处可见AI刷屏,涌现出不少惊人的突破,国家也正式发布《新一代人工智能的发展规划》,其中关于AI应用占了不少篇幅。现实中也经常能看到AI的身影,比较突出的是讯飞输入法将AI技术落地,讯飞黑科技不再只是存在科幻情结中。这次中英等混合语音输入的『随心说』有效增进人机互动,让大众接触到、用起来,这是非常好的落地。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version