今年早些时候,我们报道过微软正在研发的一款“原声”语音翻译软件,它能把用户说的话翻译成其他语言播放出来,同时保留用户本身的口音、音色和语调,听上去就像用户亲口说的一样。今天,微软发布了该软件的最新演示视频,微软首席研究官瑞克•拉希德(Rick Rashid)在视频中利用该软件大秀还算标准的中国普通话。
这段长度10分钟左右的视频非常值得一看,软件帮拉希德“不用学就现卖”的普通话虽然难免还是有点别扭,但并不妨碍我们听懂大概的意思,而且听上去真的很像拉希德本人说的。拉希德表示,该软件的强大翻译能力离不开微软采集的海量数据,而他在使用该软件之前需要花费1小时对它进行训练,也就是为自己的语音建模。
那么该软件的核心技术又是什么呢?拉希德透露称:
“在两年前,微软研究院和多伦多大学的研究人员们取得了一项突破,利用模拟人脑行为的‘深度神经网络(Deep Neural Networks)’技术,能让语音识别器更具辨别能力,其性能优于以往的方法。
……我们让语音识别的错词率比以往的方法降低了30%,也就是说以前是每4.、5个词里有一个不正确的,而现在每7、8个词里才有1个。”
这段视频想必会引起众多华人的兴趣,但是这里有个小插曲:微软之所以选择演示“英译汉”,倒未必是刻意迎合华人,而很可能与它的开发者有关——负责实时语音翻译软件研发的微软研究院语音组主管宋歌平(Frank Soong)正是一位华人。