ITBear旗下自媒体矩阵:

自主思考 语音技术真能听懂复杂命令?

   时间:2016-08-10 08:45:07 来源:手机中国编辑:星辉 发表评论无障碍通道

语音助手极大的解放了人类的双手,当双手双眼被占用时,当无法在键盘上输入时,当打字不方便时,只需说出你的指令,应用便会自动进行下一步操作,就像请别人帮忙一样方便。不过对待语音助手可不能像对待朋友那般随意,你说出的指令要非常清晰,除了发音要字正腔圆之外,还要直接表达出指令的含义,这是由于语音助手不具备逻辑思考能力,它无法像人类一样去“理解”,语音助手背后的语音技术就显得尤为重要了。

前一段时间,搜狗发布了“知 音”引擎,它是一种可以令人机交互更加自然的语音技术,有了它的帮助手机上的语音助手,以及其它支持语音输入功能的应用可以理解逻辑更为复杂的指令,而不 再需要“慢慢说”,甚至当你的指令有前后顺序和层级关系时它也能听懂,这就好比机器突然有了大脑一样。

纠错

其实当前的语 音技术是有一定的纠错能力的,比如使用语音输入时,当用户说出某个词语后应用会通过发音来判断是哪些文字,但在用户说出全部内容时,前面的某些词语还会继 续进行修正。不过一旦文字上屏就不能再次修改了,只能通过手动的方法删除,麻烦不说,也失去了语音输入的意义。

搜狗输入法中已经接入了“知音”引擎,它具备理解纠错指令的能力,如果用户发现哪里输入错误,可以通过语音的方式来修改。受到环境、口音、语速等影响,语音输入时听错字是很正常的,通过实际测试来检验一下搜狗输入法语音输入的纠错能力。

全部指令如下:

“今天晚上七点,我和他一起去大望路吃饭,那边儿好停车”

“女字旁的她”

“把七点改为六点”

“把大望路改成国贸”

“叫上张爽一起去吧”

“立早章”

“删掉那边儿好停车”

可以看到无论是输入时还是后期纠错,应用所给出的结果是完全正确的,语音修改也变成了一件很简单的操作。不仅如此,它还能够听懂用户发出的纠错指令并替换掉错误的内容,解决了听错字的问题。

据搜狗语音交互技术中心负责人王砚峰表示,搜狗语音可以支持的文法数目在3万个以上,修改的成功率可达到80%,这些主要得益于丰富的词库数据、拆字库、用户输入的语料以及大量的百科知识图谱。而这些数据的来源除了语义系统架构之外,还有搜狗旗下支持语音的产品。

逻辑指令

上文中提到,大多数语音指令只能采用“单线程处理”,也就是说一个指令只能对应一项功能,且不同的指令之间不能有逻辑关系。但是搜狗“知音”引擎表示可 以做到。前面提到语音输入多用于双手不便打字的情况下,比如驾车时,语音导航是一个非常重要的助手。通常来说,使用语音导航时发出的指令逻辑性比较强,举 个例子:“我要去首都机场”,导航其实是不知道你要去哪个航站楼的,但搭载了“知音”引擎后,导航会直接请用户再发出更具体的指令,比如说出几号航站楼, 或者直接说出航班号,“知音”引擎会以此为依据,进一步确认目的地。

在一些与我们生活更为贴近的方面,知音”引擎也在发挥作用,当用户发出“今天天气怎么样?”的指令时,由于意思明确非常容易理解,但当用户在给出答案之后再发出“那明天呢?”的指令时,通过语音技术的理解也可以正确给出明天的天气预报。

对于人类来说,刚才的两句对话是有逻辑关系的,听者非常容易就能明白“那明天呢?”指的是明天的天气,但对于机器来说这并不简单,基于对多轮对话技术的语义理解能力,“知音”引擎技术能识别出这两条指令的前后关系,还是不错的。

注意:这项技术还在不断的完善和优化中,它无法达到人类的思维能力和水准,对于逻辑关系太复杂的指令还不能正确识别。

目前搜狗旗下部分应用已经搭载了“知音”引擎技术,比如搜狗的车载导航以及输入法等等,它还在升级的过程当中,未来可能会有更多的应用接入“知音”引擎,同时搜狗也表示愿意和能力更强的合作伙伴一起提升语音输入的交互体验。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version