2016年6月23日,百度语音技术媒体沟通会在北京百度大厦召开,百度语音技术部总监高亮、高级经理刘洋、技术架构师谢延,及百度语音开放平台高级产品经理何荡向与会媒体及专家讲解和演示了百度语音技术的最新进展。与此同时,小度机器人和搭载百度车联网CarLife的2016款途胜亮相现场,展现了百度语音技术多终端一体“音入口”的未来布局。未来的人机交互将更多通过声音进行,任何终端都“一音进入”。
百度语音技术:识别准确率达97%,请求量每天过亿
在语音技术最为核心的语音识别、语义解析、语音合成三种技术之中,百度语音不但在技术上处于业界领先地位,同时也是业界最为开放的免费语音技术服务供应商。目前,百度安静环境下普通话语音识别准确率已达到97%,超过正常人的听力水平;百度语音合成技术亦引入了深度学习技术,可根据大数据情感合成明星个性音;百度语义理解技术支持超过56个领域自定义适配。
目前,使用百度语音的App数量8万+,每天语音识别请求量1亿+,每天语音合成请求量2.5亿+。重量级行业用户包括智能手机领域的联想、中兴、魅族等;智能家居领域的联想、康佳、SONY等;汽车行业的特斯拉、比亚迪等;智能设备领域的惠普、三诺、艾米通讯等。
超越苹果与谷歌:百度语音技术国际领先
会上,百度语音向众多媒体代表展示了技术实力。在语音识别领域,不论是童声发音或者是方言,百度语音均能准确识别,令人印象深刻;在语音合成领域,情感小说合成、明星语音、名人声音均惟妙惟肖,令人啧啧称奇。
据了解,这些令人拍案叫绝的效果,源于百度语音的技术积累。2014年12月,百度称语音识别技术取得重大突破,语音识别效果超过谷歌和苹果。在嘈杂的背景中进行测试的结果显示,百度的DeepSpeech语音识别技术DeepSpeech的错误率比谷歌语音API、wit.ai、微软必应语音和苹果Dictation低了10%。2015年11月,百度硅谷实验室推出新一代深度语音识别系统(Deep Speech 2),被美国权威杂志《麻省理工评论》列为2016年十大突破技术之一,也是唯一来自中国科技公司的科技成果。
在语音合成技术上,百度已实现了业界领先的拼接合成和参数合成两项技术的研发。拼接式合成,基于海量文本语料的自然语言理解技术和深度加工的专业发音库,经过多层次的建模让韵律表现更稳健又有表现力。而其智能的弹性单元挑选策略,能从大规模录音语料库中找到所求。由于拼接合成所需资源较多,所以通过在线合成的方式提供服务。参数合成则来源于高质量声学建模和模型压缩技术,以及音质优良的声码器技术,在大大降低资源的同时,可以离线生成接近真人发声的合成效果。
开放两项重要语音技术:未来任何终端将“一音进入”
会上,百度语音宣布进一步对外开放两项重要语音技术,即唤醒技术与自定义语义技术。通过小度机器人和搭载百度车联网CarLife系统的2016款途胜演示,与会者见证了百度语音合成和基于自然语言理解的强大交互能力。
百度唤醒技术唤醒率达95%,支持自定义唤醒词和连续表达,轻量级、易集成。不论用户是通过语音说出“小度你好,请播放一首古典音乐”的指令,或者“小度你好,带我去附近的加油站”的请求,都能得到迅速响应,除了应用于车联网外,还可以广泛应用于手机、电视等不同终端。而自定义语义功能,则开放了语义和语音的映射能力,能帮助众多开发者和第三方厂商更快更准地提升识别率。
提及百度免费开放两项语音技术的意义,百度负责人表示,这些能力背后是百度的人工智能和大数据能力支撑,是百度“智能+”战略的落地。正如李彦宏在2014年百度大会上预言的那样,未来五年语音图像搜索会超过文字。自2014年第二季度起,百度语音输入增长4倍以上,输出增长26倍以上。无论是Carlife、还是小度机器人,乃至应用到搜索、外卖等领域的语音技术,都极大优化了产品体验并方便了人们生活。可以相信,未来的人机交互将更多通过声音这种人类最自然的交流形式进行。
百度语音的愿景是通过智能语音让万物互联。百度在业界首创完全永久免费新形式,为开发者提供基于百度大脑的业界顶级声学模型和语音模型。基础服务免费,永久使用。在百度开放唤醒和自定义语义技术后,百度将进一步推动语音互动的普及。在未来,任何终端都将“一音进入”。