您的位置:首页>>电脑软件

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

发布时间:2019-09-20 11:10:21  来源:互联网    背景:

  人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有‘AI’”语音定制功能发布会召开,重磅推出全球首个地图语音定制产品。该功能科技范儿十足,用户只需在百度地图App上录制20句话,最快20分钟,即可生成个人完整语音包。换句话说,当你之后出行使用地图功能时,就可以用自己的家人甚至宝宝的定制化语音导航,十一旅游还可以听自己声音的景区解读。

(喊“小度小度”开启语音包录制)

  这是百度语音技术与百度地图的又一次重要融合,让普通大众都可以切身体验科技的酷炫。可体验的科技背后,依赖的是百度大脑全球领先的语音技术打造。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。那么百度地图国民级众多用户,大家都可以同时发起语音定制需求吗?百度语音如何实现在15分钟这么短的时间内合成定制语音包?为什么百度语音能够实现全球首个地图语音定制?

  现场,百度语音首席架构师贾磊揭秘了这背后的技术:“百度地图语音定制功能基于百度独创的风格迁移技术Meitron模型,其特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低,相信百度语音技术在AI时代拥有无限可能。”

(百度语音首席架构师贾磊)

  具体来说,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。Meitron技术能够实现个性化的声音跟共有声音空间信息的完美分离和完美重合再现,是个性化语音合成成功的关键。在今年的5月份,基于百度大脑的这一语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”。

  众所周知,语音合成技术发展已有数年,至今合成的工业级应用并不成熟,在百度地图这类国民级应用中实现定制化更属首次。此次百度语音技术“一骑绝尘”,推出全球首个地图语音定制产品,其背后的技术进步路径也再次向业界显露。

  从2012年起,百度把深度学习技术DNN技术用于语音搜索,是全世界最早把深度学习技术落地工业化产品的企业之一。到2019年1月,百度在世界范围内首次提出了截断注意力模型SMLTA。这是国际上第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。SMLTA实现从语音的声音信号到输出文字的直接映射,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,从而也让端侧的语音识别成为可能。目前,SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。从2012年DNN的深度学习技术落地百度语音搜索,到SMLTA技术率先解决注意力模型的线上使用问题,概括了百度的语音识别技术从跟随世界AI技术浪潮发展,到领跑世界的整个过程。

  端到端建模的注意力模型具有语言语音一体化建模的优势,识别率较高,同时在嵌入式场合具有很高的应用前景。因此,百度攻克的注意力模型的在线使用的技术难题,也是行业巨头纷纷投入精力研发的领域,但注意力模型一直从未在各大公司的主流产品上广泛使用过。百度公司目前是世界范围内,唯一一家全线产品均采用了基于注意力机制的端到端语音识别建模的高科技公司。

  除了语音识别领域的重大技术突破,在语音合成领域也是行业领先。

  从2016年开始,百度在基于深度学习的语音合成产品落地上持续发力,逐渐开始采用深度学习的离线参数合成、全面深度学习的EMPHASIS声学建模、Tacotron+WaveRNN的联合训练等新技术,最终逐渐开始获得行业领先的语音合成产品体验。百度的云端语音深度学习系统,是世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统。

  百度语音信息流的一些音库,已经采用百度领先的在线实时合成WaveRNN技术。百度相对于学术界广泛研究的WaveRNN深度学习技术有一系列的创新。百度的WaveRNN语音生成过程是并行进行的。技术圈众所周知,RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点。因此WaveRNN的技术本质是一个单点递推的串行过程,是不可并行的。所以在waveRNN技术付诸于线上部署的时候,通常由于计算时间较长、用户等待时间过长,无法线上实时使用。

  百度创新的并行WaveRNN技术,把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用。由于传统WaveRNN合成时候,会有一些的Badcase,比如个别音有一些丢音、爆音或者破音。百度创新了WaveRNN和tacotron模型联合训练的方法,比较好地解决了这一问题,使得WaveRNN的Badcase率大幅度下降。目前这套系统应该说代表了整个中文语音合成的最先进水平。

  相对于传统的语音合成,2016年以前,百度的线上语音合成是有两三个语音库,一男一女,都是新闻腔,并没有悬疑、有声,或是脱口秀。如今的语音合成技术,覆盖了从通用、新闻、有声书、评书、情感电台、北京话等方方面面。声音更加清晰、情感更加自然,多场景、多角色,风起云涌的合成系统提供了全方位的声音服务。

  除了语音合成技术本身,能够基于百度深度学习平台飞桨(PaddlePaddle)实现纯端侧的廉价GPU部署,也是百度地图语音定制功能得以上线的重要原因。逻辑也非常明了,一项技术的工业化应用除了顶级的算法,还要有算力的极大支撑。

  基于深度学习的定制化语音合成产品,需要大量的训练,大量的GPU做算力支撑。如果几百万人同时提出GPU需求,采用大服务器也很难应对。百度把深度学习部署到廉价的GPU卡上,一个GPU卡可能两千块钱,就可以做深度学习,而且是大规模分布部署,实现全景化服务,这也是个性化语音合成技术得以落地的核心和关键。

  一直以来,百度大脑语音技术对内支持语音搜索、信息流、智能音箱、输入法等核心产品,实现了前沿技术的突破与工业级应用的结合。就在上个月,百度智能音箱出货量跃升为全球第二,优质的语音交互能力成为其制胜王牌;今天,百度语音技术再次在地图场景中上线语音定制化产品,这不是第一次语音技术为百度地图赋能。百度语音技术多年的积累和沉淀或正进入爆发期。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
友情提示:评论功能暂时关闭,请扫描上方二维码进群交流!
中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品
人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有&...
日期:09-20
十款违法有害App公布:开心消消消、时尚快拍等上榜
9月17日消息 据新华社报道,国家计算机病毒应急处理中心近期在“净网2019”专项行动中通...
日期:09-17
5款校园必备神器,WPS助你更加高效
随着科技的迅猛发展,校园教学硬件设施和学校教学都加快了智能化进程,教学不再只是单纯的“教...
日期:09-16
Win10负优化总算解除:不再卡顿
8月30日,微软面向Windows 10五月更新(v1903)用户推送了补丁KB4512941,没想到意外翻车,造成部分用...
日期:09-12
高玩用Excel重制《文明1》 ,四核i5占用率100%
根据PC Game的报道,最初的《文明》已有28年的历史,1991年首次在MS-DOS上发布。现在,国外一名高玩...
日期:09-08
SpreadJS与Vue集成,苏宁集团『极客办公』系统开发案例
“造极”如今已成为苏宁集团的年度核心关键词。“造极”在具体工作上的体现,...
日期:09-05
DropperNecro病毒藏身SDK软件,腾讯手机管家保护用户手机财产安全
各类手机APP的出现使用户的连网生活丰富多彩,随着用户需求不断提高,更加细分、热门的APP雨后春笋般...
日期:09-05
联想发布 IdeaPad S540:2K屏,可选AMD R5 3500U
9月4日消息 在IFA 2019上,联想宣布了一款13.3英寸的IdeaPad S540,搭载了QHD显示屏,可选英特尔第1...
日期:09-05
宏碁推出22英寸专业显示器:99% Adobe RGB,75Hz刷新率
9月5日消息 宏碁在IFA公布了全新的ConceptD系列产品,面向专业用户。如果你喜欢小屏显示器的话,接...
日期:09-05
联想推出新款IdeaPad S340:13.3英寸,十代酷睿+MX 250
9月4日消息 在IFA 2019上,联想推出了更新版的IdeaPad S系列,搭载Intel 10th Comet Lake-U和NVIDIA...
日期:09-05
ROG推出新款Zephyrus S笔记本,搭载 300 Hz刷新率屏幕
9月4日消息 今天,在IFA 2019上,华硕ROG发布了Zephyrus S GX701游戏笔记本电脑,配有300赫兹超刷新...
日期:09-05
宏碁推出ConceptD 9 Pro 笔记本:i9+RTX 5000,17.3英寸4K翻转屏
9月4日消息 今天宏碁推出了一系列的新品,包括四五千的入门级别笔记本到十几万的“电竞椅&rdqu...
日期:09-05
华为:搭载鸿蒙OS的笔记本电脑和智能手表将在海外上市
9月4日消息 上个月,华为公布了自研操作系统HarmonyOS(鸿蒙OS)。日前,华为在英国伦敦举办媒体活动...
日期:09-05
华硕推出新款AsusPro B9商务笔记本,仅重880克
9月4日消息 据Liliputing报道,华硕推出了AsusPro B9450FA笔记本,官方称是世界上最轻的14英寸商务...
日期:09-05
英伟达与华硕推出最强移动工作站:搭载RTX 6000,24GB显存
9月4日消息 根据WCCFTECH的报道,英伟达和华硕在IFA2019上合作推出了一款最强移动工作站—&mda...
日期:09-05
OneWeb宣布2020年在北极地区提供高速卫星互联网
9月5日消息,据国外媒体报道,当地时间周三晚些时候,卫星互联网提供商OneWeb表示其将在2020年前为...
日期:09-05
雷蛇推出灵刃13潜行版水银:25W i7-1065G7,Iris Plus核显
9月4日消息 今天雷蛇在IFA 2019上推出了雷蛇灵刃13潜行版水银,采用了25W的英特尔10nm处理器,支持...
日期:09-04
游戏网络延迟优化,MediaTek G90T芯片助红米Note8 Pro实力圈粉
9月3日倍受关注的的红米Redmi Note 8 Pro正式上市,作为1399元价位里最耀眼的新机型, Redmi品牌总...
日期:09-04
英特尔Lakefield 3D堆叠芯片曝光:超低压5核心,性能比肩奔腾G5400
9月3日消息 根据Tom's Hardware报道,英特尔即将推出的3D堆叠处理器代号为Lakefield,@TUM_APISAK最...
日期:09-03
无需公网IP,蒲公英帮你实现远程访问OA系统
行业背景
  办公自动化简称OA,是将计算机、通信等现代化技术运用到传统办公方式中,进而形...
日期:09-03
  专栏介绍
王涵 的专栏
王涵发表的文章
积分:
自我介绍 :