百度AI开发者大会上除了智能驾驶,另一个重头戏就是语音交互。在现场的演示中基于自然语言的交互平台DuerOS,百度工程师罗兴通过十七行代码,用1分钟的时间,让原本只会英文的音箱马上变得能“听懂”中文。
语音加速人机交互方式的变革,搭建智能语音生态早已不约而同地成为诸如百度、谷歌、微软等的AI发展战略。Google Assistant、苹果Siri、百度DuerOS、微软小冰和小娜等等智能语音服务早已在各类机器设备中得到了广泛的应用。在语音交互技术商业化探索方面,亚马逊Echo是佼佼者。来自调研机构CIRP的数据显示,截止2016年底,Echo总共卖出了820万台。
eMarketer在报告中指出,在美国语音激活扬声器市场,亚马逊Echo占据的份额超过70%,Alphabet的谷歌Home排在第二位,份额24%。
Echo在国外市场的火爆与中国的智能音箱市场恰好形成强烈对比,无论是阿里、京东还是联想、小米的智能音箱销量均未达到Echo这样的体量。除了技术方面的原因,更多的仍然是用户接受度尚未培养。
抢先布局
7月5日,百度AI开发者大会当天下午,天猫发布智能音箱天猫精灵。据其官方介介绍,天猫精灵使用了阿里人工智能实验室自主研发的中文语音理解引擎——AliGenie,在自然语言理解的基础上加入了“决策引擎”机制,能够理解上下文语境,支持多轮对话。并且针对常用的定时、提醒、天气、家居控制、购物等领域进行了特别优化。
从其功能演示来看,这又是一款亚马逊Echo的追随者。早在2015年,京东就与科大讯飞成立合资公司推出了首款智能音箱叮咚。其旗舰版被命名为A1,整体交互方式在家庭5米远程范围内,可以与这款音箱进行语音交互。当然这款产品同样可以实现语音购物功能。据京东智能音响产品负责人钟博透露,目前这款产品已经迭代多次累积用户达到了100万。
从销量的对比可以发现,国内的智能音箱产品远不如亚马逊Echo在国外市场的欢迎程度。钟博认为主要原因还在于消费者对智能音箱这一产品的接受度还没有培养起来。
今年7月,叮咚TOP智能音箱上线京东商城其价格仅为399元,制定这样价格的原因在于,降低获得门槛让智能音箱可以进入更多的家庭。
智能音箱所代表的是一种全新的人工智能交互方式,代表着未来人工智能在家庭应用场景中的落地。巨头抢夺的并非是智能音箱市场,而是有关未来家庭入口的进场券。
技术优化
一个不容忽视的发展趋势是,未来我们的生活将从工业时代完全过渡到一个全新的智能时代。人工智能会受人类的控制而更好地服务于人类,拥有更多的功能,应用到更广泛的领域。而这里有一个重要的课题需要解决:人类怎样才能顺畅的与机器进行交流,让机器真正能与人类实现对话。
事实上,就目前的技术而言,人类与人工智能实现如同科幻电影里的顺畅交流并非易事。因为机器现在的智能语音停留在对关键词的内容识别和上下文分析,而机器是没有“语感”的,也不懂得什么语法。要将人类的语言用数学逻辑的形式解析并让机器理解、学习这中间存在的问题就是,语言是不是能够被数学化?语言如何能被数学化?
尽管国内智能音箱设备众多,但有一个问题是目前它们都未能完美解决的:智能音箱未能100%对用户提出的需求进行精准的响应。
叮咚智能音箱研发中心负责人周正友对TechWeb解释称,机器对于人类语言的识别会随着深度学习的加深不断改进,足够大的数据量会让机器越来越智能。智能音响的推出并不是生产出来就完了,它是处于一个不断迭代与学习完善的过程中,这也是人工智能时代产品与工业时代产品的不同。
在理想化中的状态中,智能音箱在家庭中的角色更多是智能语音助手。它无法取代生活中的家用电器,但它能够让家电更快捷的对人们的需求作出反馈。
但是基于目前的智能语音交互技术,这种理想化的状态想要实现并非易事。钟博表示,“在特定语式下智能音箱与家电之间是打通的,特别自然的可以随便去理解的话,其实还都是非常大的难度。这个需要通过时间、大量的用户数据,大量的方式不断深化它,逐渐把中文的语音方式和音响对于这个用户的说话的方式属性慢慢建立起来,所以并不是一个点状的。如果是打造一个自然,业界上还没有攻克到这种程度,需要一定的时间。”
巨头游戏
让人类和机器对话是人机交互领域长久以来的梦想。语音正在成为人类和机器互动中越来越重要的手段。企业在这个领域的竞争无疑也是激烈的。目前无论是科大讯飞、云之声还是思必驰等都瞄准了语音交互与智能硬件相结合的场景。
在周正友看来,产品的研发背后最重要的其实是交互体验,而交互体验的顺畅与否其实是需要大数据的支持与训练。科技巨头们拥有这场语音争夺战的先天优势——海量数据。
在百度AI开发者大会上,百度工程师罗兴用 DuerOS 的智能硬件开放平台,在短短的一分钟之内,用十七行代码,让搭载了 Alexa、只会讲英文的 Anker 音箱听懂了中国话。这被许多自媒体解读为“百度DuerOS开放平台,让你一分钟拥有中国版Echo”。
但其实问题远没有这么简单,周正友在与TechWeb对话中谈到,钦佩百度能够开放到如此程序,将一个具体智能音响内部结构都开放出来。但他表示,仅仅依靠这个开放平台,中小开发者并不能打造出一个智能音响,“智能音响牵扯因素比较多,譬如说整个麦克风和搭配尺寸上的关系,几毫秒的差别引起的变化。这需要长期的设计和生产积累经验,并不是一个开放平台就能解决所有问题。”
智能音箱的硬件设计需要技术与经验的积累,另一方面,其搭载的服务则需要海量数据供其学习。在周正友看来,拥有数据的大企业在智能音箱的设计与迭代方面有着巨大的优势。
但是在人工智能初创公司蓦然认知CEO戴帅湘此前在与TechWeb对话中表示,这个市场其实并不是特别激烈,因为用户使用语音交互的习惯并没有完全培养起来,另外就是,这个领域其实没有真正的巨头。
但不可否认的是,对于语音交互的需求是很大的,一款语音交互体验好的产品必然会得到更多服务商的亲睐。目前比拼的就是谁的产品交互体验更好。