国外媒体近日撰文称,对于资源有限的普通开发者来说,给自己的应用程序引入语音识别技术极其困难。创业公司Wit.ai想要给他们带来帮助。它希望利用类似于代码托管网站GitHub的众包模式来打造强大的语音识别技术,帮助创业公司开发出自己的Siri。
以下是文章主要内容:
做语音识别技术并非易事,对于世界上规模最大的科技公司来说也是如此。苹果和谷歌利用所收集的海量真实语音模式录音来调整它们的语音识别算法,以驱动各自的语音助手——Siri和Google Now。虽然那些工具的表现令人印象深刻,但苹果和谷歌仍得耗费大量的时间去处理你的语音指令。
而对于那些资源远没有苹果和谷歌丰富的小公司来说,开发语音驱动的应用程序则是难上加难。简单来说,它们不能够像大公司那样利用海量的真实语音指令数据。“如果你只是个体开发者,那你永远都无法获得足够的样本来完善你的算法。”亚历山大·勒布伦(Alexandre Lebrun)说道。
这就是他为什么创立Wit.ai的原因。该服务旨在帮助开发者汇集他们的语音样本来驱动一个语音与自然语言识别系统,勒布伦希望该系统不久之后将能够在深度和宽度上媲美苹果和谷歌提供的工具。未来,该类技术会非常重要,因为开发者打造的下一波技术往往需要语音控制界面,如没有屏幕的智能联网设备和可穿戴设备。
Wit.ai成立不久,但已经吸引了数千名开发者使用它的测试服务。周三,该公司也宣布它刚刚完成了300万美元的种子融资,投资方是知名风投公司Andreessen Horowitz。
“房间里的大象”
Wit.ai的诞生,源起勒布伦在他的前一家公司VirtuOz的沮丧经历。VirtuOz致力于为AT&T等公司开发语音识别系统。它的问题在于,每建立一个新系统,VirtuOz团队都得重新进行开发——几乎是从头做起。
每开发一个系统,他们都得收集新的语音样本集来训练该系统。很多情况下,不同的客户想要能够识别的语音指令集之间都存在重合,但是VirtuOz并不能将一个客户项目中的语音样本再用于另一个客户的项目。
“不管我们有多么地努力,‘房间里的大象’(注:指人们很忌讳的麻烦)都还是存在——语音识别永远都做不到完美的地步。”他今天在博文中写道,“事实上,终端用户体验有时候非常糟糕。雪上加霜的是,由于将语音整合成系统的设置成本高昂,没有提供商能够真正解决小企业和开发者的需求。”
去年,勒布伦将VirtuOz卖给了帮助驱动Siri的语音识别公司Nuance,然后创立了Wit.ai。
运作模式
通常来说,语音算法开发者需要先创建“语法”——你希望计算机能够识别的单词和词组集合,然后“训练”计算机识别那个语法,具体是通过针对那些单词和短语为它提供尽可能多的不同表达方式的样本。由于不同的用户会用不同的方式来表述他们的指令,语法需要尽可能地具有弹性,需要能够识别尽可能多的相同意图不同的表达方式。
而Wit.ai实质上所做的就是,让企业能够共享语法和训练数据,就像软件开发者在GitHub等网站上共享代码那样。开发者能够复制那些语法来随意调整自己的应用程序,就像他们复制GitHub上托管的代码后进行调整那样。
商业模式方面,Wit.ai也类似于GitHub。正如GitHub对公开分享自己的代码的人免费,Wit.ai免费推向共享数据的人。出于隐私原因和实用性的考虑,用于训练语音系统的实际语音样本不在分享范围内。不愿分享自己的语法或数据的公司如想使用Wit.ai的服务,就需要付费。
价值主张
目前,越来越多的公司与项目跟Wit.ai一样想要帮助开发者将语音识别技术引入他们的应用程序。当中还有像Julius、CMU Sphinx这样的开源项目,也有诸如谷歌语音转文本的托管服务。它能够理解语音,尝试判断用户的确切意图。
通过提供一项免费服务,勒布伦希望能够吸引各种各样的语法和训练数据,进而提供可比肩苹果Siri和谷歌Google Now的语音识别功能。
这种模式的不好之处在于,所有的音频都必须经过互联网传送到公司的服务器。这意味着可能会出现延迟、可用性和隐私方面的问题。但勒布伦指出,针对这一问题,Wit.ai 正在开发一个主要基于客户端与服务器传输信息的“混合”版本。