您的位置:首页>>电脑软件

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

发布时间:2019-09-20 11:10:21  来源:互联网    背景:

  人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有‘AI’”语音定制功能发布会召开,重磅推出全球首个地图语音定制产品。该功能科技范儿十足,用户只需在百度地图App上录制20句话,最快20分钟,即可生成个人完整语音包。换句话说,当你之后出行使用地图功能时,就可以用自己的家人甚至宝宝的定制化语音导航,十一旅游还可以听自己声音的景区解读。

(喊“小度小度”开启语音包录制)

  这是百度语音技术与百度地图的又一次重要融合,让普通大众都可以切身体验科技的酷炫。可体验的科技背后,依赖的是百度大脑全球领先的语音技术打造。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。那么百度地图国民级众多用户,大家都可以同时发起语音定制需求吗?百度语音如何实现在15分钟这么短的时间内合成定制语音包?为什么百度语音能够实现全球首个地图语音定制?

  现场,百度语音首席架构师贾磊揭秘了这背后的技术:“百度地图语音定制功能基于百度独创的风格迁移技术Meitron模型,其特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低,相信百度语音技术在AI时代拥有无限可能。”

(百度语音首席架构师贾磊)

  具体来说,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。Meitron技术能够实现个性化的声音跟共有声音空间信息的完美分离和完美重合再现,是个性化语音合成成功的关键。在今年的5月份,基于百度大脑的这一语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”。

  众所周知,语音合成技术发展已有数年,至今合成的工业级应用并不成熟,在百度地图这类国民级应用中实现定制化更属首次。此次百度语音技术“一骑绝尘”,推出全球首个地图语音定制产品,其背后的技术进步路径也再次向业界显露。

  从2012年起,百度把深度学习技术DNN技术用于语音搜索,是全世界最早把深度学习技术落地工业化产品的企业之一。到2019年1月,百度在世界范围内首次提出了截断注意力模型SMLTA。这是国际上第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。SMLTA实现从语音的声音信号到输出文字的直接映射,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,从而也让端侧的语音识别成为可能。目前,SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。从2012年DNN的深度学习技术落地百度语音搜索,到SMLTA技术率先解决注意力模型的线上使用问题,概括了百度的语音识别技术从跟随世界AI技术浪潮发展,到领跑世界的整个过程。

  端到端建模的注意力模型具有语言语音一体化建模的优势,识别率较高,同时在嵌入式场合具有很高的应用前景。因此,百度攻克的注意力模型的在线使用的技术难题,也是行业巨头纷纷投入精力研发的领域,但注意力模型一直从未在各大公司的主流产品上广泛使用过。百度公司目前是世界范围内,唯一一家全线产品均采用了基于注意力机制的端到端语音识别建模的高科技公司。

  除了语音识别领域的重大技术突破,在语音合成领域也是行业领先。

  从2016年开始,百度在基于深度学习的语音合成产品落地上持续发力,逐渐开始采用深度学习的离线参数合成、全面深度学习的EMPHASIS声学建模、Tacotron+WaveRNN的联合训练等新技术,最终逐渐开始获得行业领先的语音合成产品体验。百度的云端语音深度学习系统,是世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统。

  百度语音信息流的一些音库,已经采用百度领先的在线实时合成WaveRNN技术。百度相对于学术界广泛研究的WaveRNN深度学习技术有一系列的创新。百度的WaveRNN语音生成过程是并行进行的。技术圈众所周知,RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点。因此WaveRNN的技术本质是一个单点递推的串行过程,是不可并行的。所以在waveRNN技术付诸于线上部署的时候,通常由于计算时间较长、用户等待时间过长,无法线上实时使用。

  百度创新的并行WaveRNN技术,把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用。由于传统WaveRNN合成时候,会有一些的Badcase,比如个别音有一些丢音、爆音或者破音。百度创新了WaveRNN和tacotron模型联合训练的方法,比较好地解决了这一问题,使得WaveRNN的Badcase率大幅度下降。目前这套系统应该说代表了整个中文语音合成的最先进水平。

  相对于传统的语音合成,2016年以前,百度的线上语音合成是有两三个语音库,一男一女,都是新闻腔,并没有悬疑、有声,或是脱口秀。如今的语音合成技术,覆盖了从通用、新闻、有声书、评书、情感电台、北京话等方方面面。声音更加清晰、情感更加自然,多场景、多角色,风起云涌的合成系统提供了全方位的声音服务。

  除了语音合成技术本身,能够基于百度深度学习平台飞桨(PaddlePaddle)实现纯端侧的廉价GPU部署,也是百度地图语音定制功能得以上线的重要原因。逻辑也非常明了,一项技术的工业化应用除了顶级的算法,还要有算力的极大支撑。

  基于深度学习的定制化语音合成产品,需要大量的训练,大量的GPU做算力支撑。如果几百万人同时提出GPU需求,采用大服务器也很难应对。百度把深度学习部署到廉价的GPU卡上,一个GPU卡可能两千块钱,就可以做深度学习,而且是大规模分布部署,实现全景化服务,这也是个性化语音合成技术得以落地的核心和关键。

  一直以来,百度大脑语音技术对内支持语音搜索、信息流、智能音箱、输入法等核心产品,实现了前沿技术的突破与工业级应用的结合。就在上个月,百度智能音箱出货量跃升为全球第二,优质的语音交互能力成为其制胜王牌;今天,百度语音技术再次在地图场景中上线语音定制化产品,这不是第一次语音技术为百度地图赋能。百度语音技术多年的积累和沉淀或正进入爆发期。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
微软 Cortana Win10 商店版正式版发布:支持中文
5月25日消息 微软已经准备好在Windows 10版本2004中推出更新的Cortana数字助手,Microsoft Store中...
日期:05-25
戴尔推出灵越3880台式机:i5-10400F+GT 730
5月24日消息 戴尔推出了灵越3880台式机,搭载了刚刚上架的十代酷睿i5处理器,显卡为入门级的GT 730...
日期:05-24
谷歌 Chrome 浏览器支付卡新增支持 Windows Hello 验证
5月24日消息 谷歌已经使用Windows Hello身份验证来解锁Google Chrome设置中的密码显示,现在,根据...
日期:05-24
微软免费实用工具集PowerToys 0.18.1 发布
PowerToys 0.18.1 发布了,这是一个修复版本,主要解决了以下问题:
日期:05-23
Windows Hello已可用于谷歌Chrome浏览器中的支付认证
早在 2018 年的时候,微软就已经为 Edge 浏览器引入了 Web 身份验证规范,从而为基于 Windows Hello...
日期:05-22
迎接5月更新!微软发布Edge 83稳定版:多重改进
为了迎接Windows 10 5月更新的到来,微软紧跟Chrome更新节奏,基于Chromium的新版Edge浏览器已经跳...
日期:05-22
Win10新版19631推送:修复睡死、改善红外人脸识体验
今晨,微软带来两个Insider预览版,分别是面向快速通道会员的Build 19631和面向ARM PC(如Surface Pr...
日期:05-22
微软 Chromium 版 Edge 浏览器 Linux 版首次亮相
5月20日消息 微软于今年1月份推出的经过改进的 Chromium 版 Edge 浏览器已进入Linux操作系统,并有...
日期:05-20
微软 Q&A 正式上线,替代 MSDN 和 TechNet 论坛
5月19日消息 去年10月份,微软宣布将用新的Microsoft Q&A代替MSDN和TechNet论坛。Microsoft Q&a...
日期:05-19
微软 Win10 版本 2009 将基于Build 19042
5月19日消息 微软通常更新发布包括每年两次重大更新,一次在春季,另一次在秋季。Windows 10版本200...
日期:05-19
Flash被集体宣判死刑!Firefox 84将在年底放弃支持
两年前,Adobe就已经宣布将会放弃Flash,最迟在2020年底全部退役。各家浏览器也纷纷行动起来,淘汰F...
日期:05-18
微软 Chromium 版 Edge 浏览器测试“安静通知”
5月12日消息 继Google和Mozilla的脚步之后,微软现在正在测试一项新功能,该功能将在Chromium 版 Ed...
日期:05-12
Ubuntu 20.10 将为 ZFS 提供更多改进
从 Ubuntu 20.04 LTS 发布到现在已有两周,Canonical 和 Ubuntu 社区也已将注意力转移到 Ubuntu 20....
日期:05-07
旗鱼移动操作系统Sailfish OS 3.3“Rokua”发布
Sailfish OS 3.3 已发布,代号"Rokua"。Sailfish OS(中文:旗鱼系统)是一款开源操作系统,其核心基...
日期:05-07
Google Chrome 81.0.4044.138 发布
谷歌浏览器Google Chrome 81正式版例行更新,详细版本81.0.4044.138。Google Chrome浏览器,又称谷...
日期:05-06
终于有一款组件可以全面超越Apache POI
在 GrapeCity Documents出现以前,服务端文档组件向来以Apache POI为代表,作为一款由Java编写的开...
日期:05-06
Firefox 火狐浏览器 76 正式版发布:画中画,增强密码保护
Firefox 76 版本正式发布了,此版本一大亮点是增强了对在线帐户登录名和密码的保护:
日期:05-06
最受信赖的Win10版本出炉:半数用户搭载
尽管下月就将迎来Windows 10 v2004五月更新,可最新统计显示,当前保有量最高的Windows 10版本是去...
日期:04-30
又是一年毕业季 这些好用的论文工具必不可少
临近五一,除了即将让人开心的五一假期,一转眼又快到了一年一度的毕业季。
日期:04-30
HDD 机械硬盘救星,微软 Win10 版本 2004 性能大提速
4月28日消息 Windows 10设备随着时间的推移可能会变慢,这与软硬件配置有关。尽管有多种方法可以改...
日期:04-28
  专栏介绍
王涵 的专栏
王涵发表的文章
积分:
自我介绍 :