ITBear旗下自媒体矩阵:

超越Siri、Google Now?百度语音合成大咖要教机器真正“说人话”

   时间:2014-07-29 12:29:39 来源:互联网编辑:星辉 发表评论无障碍通道

“我们为什么要做语音合成?刚才也提到了,让机器说话是人类千百年来的梦想;而对于一些特殊群体,他们的受教育程度等问题造成了他们获取现代信息的障碍。如果我们给他们直接提供更自然的语音内容,可以改善他们不能平等享受信息的现状。”7月26日,负责百度语音合成系统开发工作的李秀林在第52期百度技术沙龙上说。

语音合成也被称为文语转换,是将文本转换成语音的一种技术。在日常生活中,我们已经用到很多使用语音合成技术的产品,例如汽车导航内嵌了语音系统、智能手机的语音助手、读书软件等等,这些应用的实现都离不开语音合成。而如今非常火爆的可穿戴智能设备,也为语音技术提供了崭新的实用空间。本期的百度技术沙龙,李秀林与大家分享了百度在语音合成技术方面的话题和研发成果。

在充满创新能量的中关村创业大街,每月举办的百度技术沙龙成为众多开发者和技术爱好者们学习、交流、碰撞思维、开拓眼界的最佳平台,而来自百度的嘉宾讲师所带来的最前沿技术分享往往成为活动的亮点。

负责百度语音合成系统开发工作的李秀林说:“千百年来人们一直在期待着机器能够开口说话,这就是语音合成。”

百度语音合成:“折衷”的艺术

2013年初,百度就开始进行语音合成技术的研究,历经一年左右的时间,2014年4月份,百度语音合成正式通过开放平台对外开放;2014年7月,语音合成技术也成功地应用于百度搜索框这个重量级的应用。

“作为国内搜索行业的领导者,百度在大数据积累、自然语言处理方面有着深厚的底蕴,但在语音合成技术的研发过程中,挑战仍层出不穷,而不同层面的折衷处理也是技术攻关的难点所在。”李秀林表示。

基于中文发音的语音合成一直是业内技术难点,而针对观众所提出的使用HMM框架是否会导致语音合成质量下降的问题,李秀林老师也给出了答案。

据他介绍,中文语音合成需处理多达1400多个带调的音节,每个音节的前后音连、调连等不同语境又衍生出数百万的上下文情况。对此,百度灵活应用了语音学和语言学的知识,对上下文情境进行适当分类,缩小特征空间。以声母的分类为例,根据发音方法和发音位置的不同,声母的类型可以被从二十几个压缩到十几个甚至几个的规模。

在开发过程中,百度语音合成系统采用了声母和韵母作为基本的单元,有效减小了单元量,并借此进一步压缩特征空间的大小。在此基础上,录音语料、录音规模跟发音者之间、模型训练的充分性与可拓展性之间、主观感知与声学参数之间的折衷处理也获得了更大的操作空间。

“折衷,其实不是对付做一个(语音合成系统)就可以了;折衷的目标是为了让语音合成的表现更加卓越。”李秀林说。

拥抱开发者,百度语音全面开放

2014年4月份,百度语音合成正式通过语音开放平台,向开发者免费开放,开发者可以通过网站获得相关的技术文档和开发资料,并以此为基础更加轻松地开发含有对话系统或者是阅读信息系统的应用。

“开发者只需要下载SDK,在自己的APP里面用相关的接口,百度的在线系统即可帮助开发者管理数据、机器、网络等等一系列的问题,开发者可以把精力集中在自己想要展现的功能上。”李秀林说。

在2013年10月月正式向开发者开放后,百度语音平台已经吸引了包括陌陌、去哪儿、国航等大批移动应用使用。百度语音开放平台提供的一整套完备的解决方案,让每一位开发者都能以最低的成本将最先进的语音合成与识别技术整合进自己的产品中。

百度语音合成系统的前端是基于海量语料的自然语言理解技术,实现智能分词、高精度的多音字处理、准确的韵律层级预测。利用数万句话的精加工语音库,通过采用HMM框架和问题集优化,得到了既稳健、又有一定表现力的声学模型。最后,经过快速单元预选,多层次的代价优化,选出最合适的单元进行拼接。对于开发者来说,百度语音开放平台为他们的应用带来了更丰富的应用场景和更开阔的想象空间。

“百度的使命就是让人们更平等便捷地获取信息找到所求;通过语音合成技术,我们可以让信息更符合用户所求。”李秀林说。

据了解,百度技术沙龙是国内互联网界最早的技术开放交流活动,由百度组织策划,至今已经持续举办4年。百度技术沙龙致力于以“技术开放”的心态,分享行业领先的技术理念和技术实践。目前,百度技术沙龙已经成为互联网行业中高端技术人员的精神家园,有效推动国内互联网的技术发展与行业创新。​

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version