通过语音交流是人机设备交互中最容易、最简单的方式,人类针对语音技术的研发经历了50多年,直到上个世纪90年代才有成型的产品出现。有专家认为,语音识别产品将是继电话、计算机、Internet之后,信息产业界的又一次革命。随着苹果Siri的发布,建立在语音交互基础上的个人智能语音类产品成了移动互联网未来发展趋势之一。
最简单的交互,蕴含着最复杂的技术,单是语音识别技术就蕴含了语音学、生理学、心理学和计算机学等方面的相关知识,如何将这些知识量化、建模并用于语音识别,这其中的复杂程度不言而喻。将语音识别输入到计算机,使得机器能够“听懂”,并按照语音指令执行,又有着复杂的逻辑程序。
智能语音行业对技术的要求非常高,不但需要在技术研发方面有非常大的科研投入,还要求在技术方面有丰厚的积累,这是小型的科技公司、创业公司无法涉猎和完善的服务领域。高门槛导致对接入该领域的企业不仅拥有强大的技术实力,并且能够有开放的心态向外输出技术,带动行业的整体发展。
百度打造“技术+产品+服务”模式 语音技术先行
在移动互联网时代,语音、图像识别等多媒体技术均得到了更广泛的应用。作为贯穿移动互联网产品的基础服务,语音技术显得格外重要。百度正从技术向服务转型,打造“技术+产品+服务”综合体,在这个模式下技术显然是百度发展的重要依托,通过技术转到产品和服务,进而增强平台所引发的产业链连锁效应。
百度开放云的建立很好的印证了百度对于服务纲领的贯彻,在百度构架的大生态环境中,不仅有连接用户的产品(百度地图、百度浏览器),还具备连接开发者的产品(语音技术、人脸识别),繁荣开发者生态,并服务于移动互联网总的战略意图。
语音技术的应用范围贯穿整个百度产品线,从出生便肩负了非常大的责任。通过两年的不断积累,百度语音已经应用在多款百度自有产品中。百度语音技术的开放也标志着这些产品的成熟,并且成为推动国内语音市场蓬勃兴起的催化剂。
当然百度语音技术的未来定位也不仅仅局限在移动互联网,随着可穿戴设备的逐渐兴起、家庭互联网的日渐完善和汽车领域大举拓展互联网,对语音应用的需求也会成倍增长。未来百度语音技术的应用范围将串联起以端为节点的全网设备。
百度语音最能读懂中文的语音
众所周知,苹果Siri开启了语音技术的快速发展,也促进了一大批企业从事语音技术的研发工作,点燃了整个智能语音产业。百度拥有非常好的搜索技术积累,在大数据整合处理方面也有完善的开发机制,这对于语音技术的开发工作有着非常大的帮助。可以说百度语音技术是站在巨人的肩膀上起跑。简单的理解百度语音技术,有着非常突出的特点和超越Siri的实力。
l 嵌入式连续语音识别识别率准确到极致
目前,百度嵌入式语音识别已经集成了当今最为热门和领先的模式识别技术,深度神经网络技术(DNN),识别的速度在一倍实时以内。由于DNN的计算对硬件要求比较高,百度完美的解决了应用手机GPU进行DNN计算,目前可以兼容绝大部分当前市面上的手机。
嵌入式连续语音识别不同于Server语音识别,所有识别计算工作都在用户使用的嵌入式设备上,对计算资源要求非常严格,计算资源包括数据的存储空间、运行内存大小等。百度开发的嵌入式连续语音识别解码器,可能实现快速高效的解码,同时还允许采用统计语言模型和语义文法混合的语言学知识,能够支持连续语音随意说。
依托嵌入式语音识别技术,百度语音产品首次在中文语音识别率上突破90%,开创了业界的先河,并且语音识别率绝对值短时间提升3% - 4%。
l 从人名入手让机器更能读懂中文
百度语音技术做出的另一个突破,就是增强对中文的识别能力。众所周知,中文是世界上最复杂的语言,所以针对中文的优化工作百度语音从未停歇。甚至在很多语义、语序上的处理超越了世界顶尖的Siri产品。正如很多年前,百度搜索宣传的一样,和老外相比百度更懂得中文。
百度语音针对中文优化工作第一步就是从中文姓名开始。现在,应用了百度语音技术的百度语音助手产品,对中文名字的识别准确率接近100%。用户可以直接对着手机说“给张三发短信”、“给李四打电话”。这是其他的语音产品很难做到这一点,究其原因,语音团队采用语言模型自适应技术,在云端构筑了一个庞大的名字模型,一举提升了中文名字的识别精度。
语音识别技术是语音产品的基础,只有识别技术过关,机器才能听懂用户的话,才能领会用户的意图,从而更好为用户创造方便。但解析这些语言指令便需要非常多的语言逻辑关系,尤其中文的语言逻辑关系又极其复杂。譬如:“我在北京路上”,这句话系统的识别就会出现很多歧义,用户是在北京的路上,还是在其他地区的北京路上?针对歧义关系的处理,百度语音也有非常多的算法调整。就是这样懂得中文的人在不断的开发与创新,才使得百度语音产品在市场占有率、技术水平、用户体验等多方面都超越了苹果与谷歌
百度语音装备自有产品 颠覆用户使用习惯
美国科幻大片中经常会有语音控制的桥段,通过语音实现人机交互,从而控制设备执行命令。这种场景并不遥远,目前的语音技术已经能够实现简单的交互命令。随着语音技术的逐步成熟,用户即将步入“只动口不动手”的时代。
谈起语音交互技术的未来,贾磊说道:“现在使用的搜索模式是单次搜索模式,而语音搜索则是多交互的搜索模式,两者有本质上的区别。举个例子,一个人需要买鲜花送母亲。现在的搜索模式,需要在搜索引擎输入关键词“送什么花给母亲”,再从万千的搜索结果中甄别,得到结果后,用户需要再次输入“鲜花预定”查找靠谱的鲜花店进行预定,整个过程全由用户人工处理。通过语音的多交互搜索就变得非常简单,用户直接对手机说“我想送我母亲鲜花”,手机会反馈给他买康乃馨。用户可以继续交互“帮我预定一束”,手机会反馈通过哪家商城预定,用户给出答案后即可完成预定。这就是未来智能人机交互的场景,机器能听懂人的语言理解人的语言,实现人和机器的自由交互。”
百度语音技术目前已应用在多款百度产品中,包括百度搜索、百度语音助手、百度浏览器等产品。其中百度语音助手最值得用户关注,这款产品即是前面介绍的采用多交互模式的语音产品。用户可通过语音控制手机的多种行为,譬如,打电话、发短信。
百度语音相伴开发者共同进步
百度秉承开放平台的原则,在对开发者生态的投入上一直非常积极强势。目前,百度语音识别技术已经面向开发者提供了大量技术支持和API接口,帮助开发者更好完成开发。因其市场所具备的庞大需求,百度开放语音技术是必然的结果。
“百度将自己先进的语音技术开放给开发者,对于整个移动互联网行业来说,是非常利好的消息。不必投入语音技术的研发,使得我们的团队能够更专注于公交领域。”彩虹公交技术负责人表示。
百度语音技术开放为移动互联网开发者、创业者、软硬件厂商等提供了无限的想象空间。在移动互联创业如火如荼的时下,也新添了一件幸福创业利器。未来开放将会更大力度,为开发者提供完整的服务体系。