语音助手不灵 “对话交互”才是未来？

时间：2014-01-06 10:41:11 来源：腾讯科技编辑：星辉 发表评论无障碍通道

过去一年，从谷歌眼镜开始，穿戴式设备、智能家居和车载设备的兴起，将语音识别技术推到应用的前台。

对整个语音识别行业而言，过去一年也经历了前所未有的繁荣，语音识别技术也有大幅度提高，特别是对新兴创业公司而言，语音识别技术不再如过去那样封闭，而是逐步开放和开源，语音技术门槛逐渐降低。“专业公司的语音识别可以做到90%，小厂商可以利用开源技术至少可以做到70%左右的识别率。”语音识别的业内人士这样判断。

实际上，即使如专业语音识别厂商科大讯飞、云知声、思必驰等都可以做到90%以上的语音识别正确率，单独的语音识别在可穿戴设备中的应用依然不够“听话”。这甚至成为整体语音技术应用的一个最大痛点。

“语音识别的遗憾是再努力做也做不到百分之百”。智能语音技术创业公司思必驰首席科学家俞凯这样判断。

剑桥大学皇家工程院院士史蒂夫.杨(Steve Young)教授是语音识别界的权威人物，多年前开始思考另一个方向：“在识别有错误，或者在理解有歧义的情况下，人和人之间可以继续对话沟通达成目标，机器也应可以做到。”

沿着在英国奠定的“对话”技术路径，作为史蒂夫.杨的对话系统研究团队早期核心成员，剑桥大学语音识别博士俞凯，和另一位同在剑桥大学毕业的高始兴回国创业，创立了思必驰。从思必驰的进展来看，不纠结于语音识别的识别率的完美主义，而死磕人机交互的“对话”系统似乎可成为如何让可穿戴设备真正能用上语音技术的“捷径”之一。

语音助手的尴尬

自苹果iPhone 4S内置Siri以来，几乎所有的手机都开始内置语音助手类的应用。除了谷歌Now、苹果Siri，国内如百度、搜狐等公司都推出了语音助手类应用。

一年后，助手类应用几乎都面临着功能的同质化、用户体验不足、语音识别准确率在复杂条件下距离实用化尚有距离的问题。

Siri的迭代可以解释助手的尴尬。在苹果发布iPhone 一代和二代时并没有没有语音驱动。在当时，苹果的一个调研显示，75%的用户希望在手机中内置语音应用。随后，苹果在iPhone3GS中加入了语音控制的功能。实际应用中，不到5%的人会使用语音控制。苹果内部的总结发现，用户不使用语音控制不是不喜欢语音应用，而是由于语音控制不是用户的自然交互。

“有87%的用户每月至少使用一次Siri，但大多数用户都是和Siri聊天。而不是通过Siri完成任务。”Siri的一位负责人发布了这样的数据。

“Siri给我们的启示是，未来智能语音技术的发展，必须同时解决自然语言交互和完成有用任务的问题，而且限制越少越好，缺了哪个都不行。”俞凯说。

去年，Siri被重新整合到苹果的内容和服务部门，且设立的四个研发组中一个与语音识别相关，三个全都是与对话系统相关。另一家巨头谷歌于去年9月对外公布新算法“Hummingbird(蜂鸟)”目的是发展语义搜索;12月在巴黎举行的LeWeb上透露将采用反复对话的形式进行搜索。

俞凯认为，这个举动暗示巨头的战略在从语音识别向对话交互的方向迈进。

用对话交互解决痛点

对于那些不方便使用键盘和鼠标输入的设备而言，语音识别技术成为更有效的输入手段，帮助用户解决了输入的困难。

“有了语音识别，将语音转换成文本，再将文本用自然语言处理转换成语义就完成任务了么?”俞凯认为，这些还不够。“语音技术的本意是帮助用户最快地完成任务，但语音识别+自然语言处理不能彻底解决这个问题。”

单纯的语音识别的另一个局限是，识别+自然语言处理本质上是根据文本理解，语音先转换成文本，自然语言理解仅仅针对文本进行，这种模式很难应对语音识别的错误，也无法理解用户意图的模糊性。

这是由于，人天生的倾向于用非精确的信息来交互，因为非精确的信息传输量更大，更方便。机器却是需要有精确信息来处理才能让识别和自然语言处理更准确。这是一对天然的矛盾。

例如说“去九寨沟吃饭”，到底是去风景区，还是去一个叫九寨沟的餐馆是不清楚的。因为在识别过程中没有针对交互过程中的上下文建立对话模型和联系历史信息，这类用户意图的模糊是无法由自然语言处理完成的。

“我们把识别、理解、决策、合成等对话系统的各个模块进行联合优化，在每个模块出现处理上的偏差的时候，基于全系统丰富的非精确信息进行计算，更新交互，实现顺畅对话。在自然语言理解的基础上，又允许有不确定性的信息，综合去做理解和交互决策。”俞凯说。

剑桥语音技术血统的创业

科大讯飞的创始团队来自于中国科技大学，云知声的团队来自于中科院自动化所和盛大创新院。

在科大讯飞开始做语音识别技术之前，90年代初期，剑桥大学开发的HTK语音识别工具已经将实验室研究的语音识别技术的代码标准化，并免费提供给开发者，普及了语音识别技术的开发，至今也是全世界使用最为广泛的开源软件之一。

思必驰的创业血统来自于剑桥大学。俞凯和思必驰CEO高始兴是在剑桥的师兄弟。俞凯曾和对话领域的奠基人史蒂夫.杨搭档开展语音对话交互的研究和产业化工作。

2011年，高始兴看到中国市场上智能设备上有爆发之势，请俞凯回国，并从汉语和英语口语评测的方向转型，在完成高精度的云端语音识别之后，重点实现对话系统技术。

“2011年，我们的首轮融资来自联想之星。之所以在众多投资者中选择联想，是联想之前投资了科大讯飞有关。联想是唯一一家投过语音识别企业的。”高始兴说。

去年9月，思必驰发布了国内第一个对话平台——对话工场，以对话为核心的智能语音交互技术开放平台，核心是不仅让机器听清人话，还能听懂，并完成任务。

截止到目前，联想、苏州电信、同程网、土曼智能手表、幻腾智能灯、智能家居Broadlink、驴妈妈等都采用了思必驰的语音技术解决方案。“互联网的合作伙伴有20家，手机等智能设备的合作伙伴也有20家。还有一些智能客服的合作伙伴。”高始兴透露。

不过他认为，和厂商的合作并非接入语音识别的技术方案那样简单，更重要的是与业务的耦合。

语音助手类的应用的尴尬在于只是识别引擎，效果不好很容易被其他助手替换。如果能与合作伙伴的业务能深度耦合，“一方面给合作伙伴的业务带来用户粘性，同时还可以通过该业务用户的语音语料做自身技术方案的优化，同时还能提升用户体验，多方共赢。”高始兴说。

便携大屏让使用更便利，S Pen为学习与工作赋能，一直以来，三星Galaxy FE系列平板都以多元化功能和对消费者需求的深入洞察，成为用户的好伙伴。而随着人工智能时代的到来，新一代三星Galaxy Tab S10 FE系列也同样焕新而至，将高效、强悍、稳定的体验与丰富实用的三星智

自英伟达推出RTX 50系列显卡以来，强大AI算力和游戏性能引起全球玩家的高度关注，继高端型号悉数亮相后，备受广大玩家期待的RTX 5060Ti中高端显卡于4月17日正式面世!宏碁作为全球领先的科技企业，暗影骑士·焕作为首批搭载RTX 5060Ti显卡的台式机第一时间开售，为更多玩

4月12日~13日，为期2天的ROG DAY 2025已圆满落下帷幕。不仅发布并展示了一系列ROG潮酷新品，包括ROG CROSSHAIR X870E EXTREME、ROG B850小吹雪、华硕天选B850主板初音未来版等，以及以华硕主板为核心的高能全家桶，让现场玩家放肆玩!特别是“液氮超频实验局”现场液氮超

4月12日至13日，ROG DAY 2025粉丝嘉年华在长沙远大城金字塔圆满落幕。这不是普通的科技展会，而是一场由ROG LAB灵感实验室进行的硬核玩家朝圣之旅。更是为期两日，高能不断的装备进化狂欢盛宴!不止有新发布的ROGROG CROSSHAIR X870E EXTREME主板、ROG B850小吹雪主板和

当“浅春系”开始席卷各大社交平台，所有时髦精都在为打造春日风穿搭而努力。前有时尚博主发布浅春系穿搭公式，后有人们迎着明媚天气肆意享受自然气息，在“浅春系”这个赛道，索尼也带来了点亮春季的实用单品：高性能头戴降噪耳机WH-CH720N推出了惊喜新色，以蕴藏春日

2025年4月10日,中国显示器市场外资第一品牌飞利浦显示器,携全国终端渠道合作伙伴在福建泉州,隆重举办了以“AI焕视,E飞冲天”为主题的2025年渠道合作伙伴会议。2025年飞利浦显示器渠道大会隆重召开冠捷科技总裁宣建生博士通过视讯会议的方式参会并做重要讲话。冠捷科技资

4月12日，ROG玩家国度在长沙市远大城金字塔盛大举办了2025 ROG DAY活动。更为各位玩家带来了一场别开生面的ROG LAB“灵感实验室，冲破次元壁”新品发布会。华硕电脑开放平台中国区总经理俞元麟化身实验室社长，和闫紫境GwAwa一起带领虚拟实验室社员及现场共创者，为大家

备受内容创作者关注，由NVIDIA® GeForce RTX™ 5080笔记本电脑GPU驱动澎湃性能的专业性能轻薄本，ROG幻16 Air 2025现已正式开售。GeForce RTX™ 50系列笔记本电脑GPU搭载NVIDIA Blackwell架构，为游戏玩家和创作者带来全新玩法。RTX™ 50系列具备强大的AI算力，RTX™ 5

近期，根据洛图科技《中国耳机耳麦零售市场月度追踪》报告数据显示，2024年，中国耳机耳麦市场的全渠道销量为2.18亿副，同比增长7.6%;销额为428亿元，同比增长9.8%。这已经是中国耳机耳麦市场连续第五年保持增长的态势。而在中国耳机耳麦传统主流电商500元以上高端市场

2025年4月10日，海辰储能在第十三届储能国际峰会暨展览会(ESIE 2025)上重磅发布尺寸为73.5*286*216mm (W*L*H) 的∞Cell 587Ah储能电池及搭载该款电池的∞Power 6.25MWh 2h储能系统。∞Cell 587Ah储能电池已于2025年4月份开始全球送样，∞Power 6.25MWh 2h储能系统将在20

(2025年4月10日)今天，富士胶片商业创新(中国)有限公司与成都一扇窗公益服务中心举行了“富士胶片商业创新(中国) X 一扇窗计划”爱心捐赠仪式。富士胶片商业创新(中国)董事长兼总裁中村达也、副总裁朱德康代表公司向“一扇窗”及其帮扶学校河南周口小学捐赠了彩色数码多

一直以来，电池相机以其灵活的无线安装和使用便捷性，深受大众喜爱。然而，传统电池相机存在诸多技术壁垒，如：录像不完整、续航能力差、网络不够稳定等，导致用户体验感不够省心。近日，乐橙推出B7E-AOV智能电池相机，通过创新省心科技，延续了传统电池相机无线安装和

来源：量子位作者：金磊梦晨家人们，你知道近段时间大火的各种大模型一体机，里面到底是什么卡吗?相信很多小伙伴的第一反应，或许就是N卡。但在我们接触、体验了真实的大模型一体机之后，发现了一个大写的“万万没想到”：没错，里面也可以是英特尔的锐炫™ 显卡！那

当气温回暖唤醒街头的色彩感官，时尚的语汇也随之切换频道——从玻璃橱窗的装置美学到都市丛林的灯影流光，崭新的穿搭潮流已在潜移默化中悄然来临。作为时尚弄潮儿的你，如果也在为应季穿搭的时尚单品而纠结，不妨考虑下许多达人们力荐的智能穿戴设备——如三星Galaxy R

4月8日，2025年FIFA世俱杯全球官方空调——海信新风空调X3Pro挂机正式开启预售。这款新品不仅以行业首创的双新风口对流技术和AI省电41%两大核心科技引发行业热议，在2025AWE展上吸引了包括国际足球巨星萨内蒂、奥运冠军陈梦、搜狐创始人张朝阳等多位大咖的驻足体验与点

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.