近日,据外媒报道,百度新推出的Deep Voice第三版可以通过深度学习技术输出各种声音,这也是百度Deep Voice系列的最后一个版本。这一技术投入使用之后将会使软硬件产品的用户体验更进一步。
作为一个完全由深度神经网络构建的高质量TTS系统,Deep Voice系列技术已经被用于百度的各款移动端产品和第三方合作伙伴的软硬件产品中。最新的Deep Voice第三版可以在半个小时内学习一种声音,总共可以同时“掌握”2500种声音。相比前几版系统专注于合成一种或者少量几种非常自然的类真人声音,Deep Voice第三版的目标则是一个能够同时掌握大量具有细微差别口音的系统。
对于Deep Voice第三版,百度开发人员表示,这个系统可以高效地生成各种各样的声音,这可以应用于很多场景。例如,有声书或视频游戏里的每个角色都可以有自己独特的声音,这会有效提升用户的体验。此外他们也对媒体表示,通过使用大量高质量数据集进行额外的机器学习工程培训,这套系统将可以掌握超过1万种声音,这是以前发表的TTS模型中从未达到的规模。
Deep Voice 3 架构图
今年年初百度推出Deep Voice,通过使用深度学习这一热门的人工智能技术,构建了一个可以实现文本到语音转换的系统。Deep Voice第一版可以通过数小时的自我学习和训练之后掌握一种声音并合成出短句,合成效果非常流畅自然,与真人发音已经相当接近。今年5月,百度又推出了Deep Voice的升级产品Deep Voice 2,新系统可以在半小时的数据学习后模仿一种声音,一个单一系统可以学习上百种不同的口音。
目前,Google、Apple和Amazon都有相关的语音合成研发产品,Google旗下的DeepMind一直在进行一个名叫WaveNet的类似项目,最新版本的WaveNet已经能够在掌握口音方面做到真实、高效,甚至可以像真人那样产生咂嘴的声音,现在这一产品已经被应用于英文版和日文版的Google Assistant上。