据PCWorld 网站报道,Windows有一项微软不愿意提及的功能。虽然Windows可以让用户使用触控笔“写写画画”,借助Windows Hello利用脸部登录系统(或保护Web安全),甚至命令小娜设置提醒事项,但它明显不想让用户使用的一项功能是,利用其语音识别引擎对系统发号施令或让用户利用语音输入编辑文档。
微软不大力宣扬Windows语音识别功能的原因可以追溯到10年前,当时微软产品经理谢恩·博切(Shanen Boettcher)在演示Windows Vista的语音输入功能时搞砸了。之后Windows的语音输入技术一直相当“低调”,目前几乎没有用户知道Windows有语音输入功能。
如果说Windows有机会再战语音输入领域,目前似乎是个时机——计算机和人工智能的进展为语音输入提供了好得多的基础。
在被问及语音输入技术在Office中的未来时,微软负责语音识别研究以及小娜和必应的执行副总裁哈里·舒姆(Harry Shum)表示,“这是一个重大问题。语音输入没有扮演更重要的角色是不可理解的。”
语音识别不完美的原因
部分用户仍然认为语音输入还是《杜恩斯比利》(Doonesbury)系列漫画中苹果牛顿 PDA的水平,把用户说的“I am writing a test sentence”,听为“Siam fighting atomic sentry”。用户有这种想法是可以原谅的:Windows语音识别功能仍然采用微软Speech Recognizer 8.0技术,自Vista以来,这一技术就基本上没有什么变化。舒姆称之为“祖父”级技术。
PCWorld表示,但硬件已经发生了很大变化:听和解释语音要求的处理能力远低于10年前。Surface Book等PC产品中的集成式麦克风阵列的质量,意味着无需使用专用麦克风语音识别就可以达到很高的准确率。只是,语音输入技术的发展已经适合大众使用了吗?
在使用语音输入软件输入长度为1028个单词的文章时,95%的准确率意味着用户必须修正逾15个错误。在测试中,Windows语音输入准确率为93.6%,从理论上说这一数值并不高,低于测试的其他专用语音输入软件。Windows有个奇怪的习惯,在输入逗号时,它会在文档中插入“comma”(逗号)这个词汇。语音输入社区似乎对这类相对较小的失误是否有重要影响有不同看法。
当然,这还不是全部。使用过语音输入软件的人都知道,准确率的关键是训练。随着时间推移,语音输入软件会了解用户口音,“apricot”中“a”的发音与“bad”还是“ape”中的“a”相同,和如何过滤无意识的痉挛性语言障碍。微软员工曾声称,经过适当训练,Windows语音识别技术的准确率可以达到99%。1000个单词出现10个错误还不算太坏。
很少有用户愿意花时间训练使用语音识别软件。Windows语音识别软件,要求用户用10分钟时间训练数个句子,会让用户有度日如年的感觉。小娜和Siri不要求用户进行训练,那是因为它们已经被训练了数以百万计的语音样本。
小娜(可以在PC和手机上使用)在语音识别方面表现远优于Windows语音输入系统的原因是,它利用了微软云服务的计算能力。微软会对用户的语音进行分析,使用户语音与其其他数据相关联,生成作为小娜灵魂的智能。
微软重视语音识别
鉴于小娜的出色表现,用户会认为语音应当成为上周微软Ignite会议的中心。但Ignite期间没有任何与语音输入有关的会议,只有一次会议与语音识别有关。微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在主旨演讲中把语音识别称作是微软未来的关键元素。
以Skype Translator为例。据纳德拉称,Skype Translator依赖三个方面的研究:语音识别、语音合成和机器翻译。在演讲中,纳德拉称微软语音识别算法的误字率为6.9%,这是一个糟糕的成绩:准确率仅为93.1%。PCWorld称,如果微软真正看好办公软件,语音识别在PC中的未来不仅仅是利用Skype在孟加拉国订宾馆,而是撰写体验,不过是通过语音而非手指。