12月19日消息,据《福布斯》网站报道,今年5月当美国华裔人工智能专家吴恩达(Andrew Ng)加入中国互联网公司百度担任首席科学家时,他对他及他的团队在新开设的加州桑尼维尔实验室的研究内容有点讳莫如深。但他还是忍不住透露在智能手机时代语音识别是关键兴趣领域。
吴恩达也是前谷歌研究人员、斯坦福大学教授和Coursera联合创始人。今天,常常被称为中国谷歌的百度透露了他的初步想法。吴恩达和科学家Awni Hannun领导的百度研究院10人团队,在康奈尔大学图书馆arXiv.org网站发表论文称,他们提出了更准确的识别语音的新方法。在苹果Siri和谷歌语音搜索等服务中语音识别都非常重要。
吴恩达称,百度的Deep Speech在测量语音识别系统的错误率的标准基准上,击败了其他技术如谷歌和苹果的技术。特别是,Deep Speech在嘈杂环境下工作比其他技术更出色。当然,在现实世界中语音识别真正有用才是关键。吴恩达称,测试显示Deep Speech在嘈杂环境下比多个其他语音识别系统,包括谷歌Speech API、wit.ai、微软必应语音和苹果Dictation要好,在单词错误率上要好10%以上。
两位大学教授发表了支持百度的言论。卡耐基梅隆大学工程学助理研究教授伊恩·莱恩(Ian Lane)表示:“百度研究院最近的工作有可能颠覆语音识别未来的表现。”该公司要求在论文发表前不得透露细节,因此无法联系谷歌、苹果和其他人发表评论。
与其他语音识别系统一样,百度的技术也是基于人工智能的一个分支“深度学习”。该软件试图以非常原始的形式模拟大脑皮层神经元的活动,因此深度学习系统是学习识别声音、图像和其他数据以数字化形式呈现的图案。吴恩达在采访中表示:“第一代深度学习语音识别技术达到极限。”百度团队收集了9600人的约7000小时语音,主要在安静环境下收集。不过有时也让说话者头戴耳机,听到嘈杂的环境声音,然后改变他们的音调或嗓音。
然后,该团队利用声波叠加的物理原理,在这些语音样本中加入了约15种噪音,如餐馆、汽车和地铁中的环境噪音。这实际上将语音样本放大到10万小时数据。吴恩达称,这比当前的语音识别系统要简单的多。他们使用一系列模块分析语音的音素和其他部分,这常常要求使用统计概率系统Hidden Markov Models(隐马尔可夫模型)亲手设计模块。
吴恩达称,百度的系统用在递归神经网络或模拟相互连接的神经元上培训的深度学习算法,取代这些模型,使系统变得更为简单。然而,真正让这个方法起作用的是使用很多图形处理器单元如英伟达的芯片的强大电脑系统。这些处理器并行工作时,能比标准电脑处理器更快速和更经济地训练语音识别模型,比吴恩达在斯坦福大学和谷歌使用的系统快40%左右。
他表示,“这些算法很重要,但大部分原因是规模”,不仅要求新的电脑系统而且需要处理大量数据。没有这种速度,处理所有数据不现实。他称,新系统比当前其他GPU系统都要尖端,“我们将进入语音2.0时代,这只是开始”。吴恩达认为,对于缺乏读写能力的人,语音识别更为重要,因为他们使用互联网更喜欢说而不是输入词条。
他称:“让他们与我们说话是关键。”他引用最近在中国出现的搜索词条为例:“嗨,百度,别来无恙?昨天中午我在街角吃了面条,明天还会卖么?”吴恩达承认这是很难回答的问题,但他认为改进语音识别将是关键。随着物联网的发展,各种设备都将在线。他设想有天他的孙子会奇怪,我们曾经需要电视遥控器和有着无法响应语音命令的微波炉。他表示:“语音是物联网的激活技术。”
吴恩达拒绝预测百度需要多久才能将新的语音识别技术整合到搜索和其他服务中。但被问及是否要很多年时,他快速回答到“以基督耶稣的名义发誓不会!”因此似乎可能明年就会出现。该技术可能应用的“探索”项目是百度的Cool Box,一个语音搜索音乐的系统。吴恩达和他的约30人团队的工作,将在百度跻身顶级互联网公司行列中发挥作用。该公司当前主要在中国市场经营,但瞄准在国际上扩大业务,开发世界级语音识别、翻译和其他功能。