Microsoft Azure 人工智能认知服务首席技术官黄学东表示,该公司基于“自定义神经语音”技术的文本转语音(TTS)功能已经正式推出。据悉,自 2019 年 9 月开放预览以来,这项技术已被 AT&T、多邻国、Progressive 和瑞士电信等组织用于开发让客户感到满意的品牌语音解决方案。
(来自:Microsoft)
黄学东表示,开发者可使用其音频数据和深度神经网络(DNN)打造个性化的语音体验。不过这项技术的切实突破,体现在能够高效利用深度学习技术来处理文本,以确保 TTS 发音和韵律的准确无误。
所谓韵律,特指每个音素的音调和持续时间。微软 AI 技术研究人员将之无缝地结合到了一起,以尽可能地再现类似真人的语音。此外,自定义神经语音技术能够带来较传统 TTS 语音转换更自然的效果。
具体说来是,微软借助了“语音字库”(Voice Fonts)和多种神经网络,来确保持续时间和每个因素音调的准确性,让机器学习模型推导出听起来更自然的合成语音。
Getting started with Custom Neural Voice(via)
对此感兴趣的客户,只需将其录制的基础语音库上传到 Custom Neural Voice 平台展开模型训练,然后就能产出自然的合成语音,且期间无需开发者的更多干预。
微软详细介绍了包括华纳兄弟和 AT&T 在内的多家公司的实际用例,比如你可以在达拉斯的 AT&T 体验店与 Bugs Bunny 展开互动。
对于语音助手、客服聊天机器人、有声书朗读、以及在线学习等应用场景来说,这项技术显得特别实用。不过为了防止被恶意利用,微软还是决定对其开放有限的访问。
除了需要预先获得批准,微软还计划在合成语音中加入数字水印,以便人们可据此分辨听到的是由 Custom Neural Voice 技术创建的合成语音内容。