图:Oculus虚拟现实头显
Oculus虚拟现实头显
凤凰科技讯据CNBC北京时间7月8日报道,苹果有Siri,亚马逊有Alexa,微软开发了小娜,Alphabet发布了谷歌助手。
科技巨头竞相通过硬件产品和应用向消费者提供语音识别技术,但很奇怪的是一家公司缺席了:Facebook。
虽然马克·扎克伯格(Mark Zuckerberg)已经使Facebook应用在全球范围内得到普及——上周Facebook全球活跃用户突破20亿、WhatsApp活跃用户达到12亿,但是,在语音助手方面,Facebook落后于竞争对手。
语音助手太过重要,Facebook不会对此无动于衷。市场研究公司Markets and Markets去年预测,2022年全球语音识别市场可能达到100亿美元。除利润外,互联网公司需要大量用户使用它们的语音工具,以积累大量数据,进一步改进服务。
在发布语音技术方面,硬件厂商有很大优势,因为它们直接面向消费者。不同于苹果、亚马逊和Alphabet的是,Facebook没有被亿万消费者广泛使用的硬件产品或移动操作系统。
Facebook旗下一款硬件产品是Oculus虚拟现实头显。Facebook要进军语音识别市场,Oculus成为了试验田之一。
Facebook的想法是,在佩戴虚拟现实头显时,用户可以说出“Hey Oculus”和自己的问题,然后收到反馈信息。例如,用户可以要求打开一款特定游戏或搜索应用商店。这一技术支持Oculus Rift和三星Gear VR头显——后者使用了Oculus技术。
Facebook应用机器学习集团负责人杰奎因·奎因尼罗·坎德拉(Joaquin Quinonero Candela)上周在接受采访时说,“要操纵任何无需动手的界面,用户肯定需要用到语音。”
Facebook对语音识别技术的应用不仅仅局限于Oculus。它还部署了一个系统,自动地生成视频字幕。Facebook在开发更多采用语音识别技术的产品。
2013年从纽约大学挖来扬·乐库恩(Yann LeCun),标志着Facebook涉足人工智能领域。乐库恩是人工智能专家,领导着新成立的Facebook人工智能研究部门。
Push和pull
数个月内,Facebook以乐库恩研究部门的技术为基础,开发出适合在市场上发布的产品。Facebook后来成立了应用机器学习部门,负责人是坎德拉——曾在微软研究院任职。
尽管最近数年Alphabet、苹果和微软一直在大肆宣扬系统精度的提升,但Facebook在语音识别领域却相当低调。
坎德拉表示,约2年半前,他的部门开始开发语音增强产品,并得到Jibbigo——Facebook 2013年收购的一家创业公司——的帮助。
坎德拉说,Facebook的研发活动分为两大类:Push和Pull。“Push”指认为某一技术未来会有多方面用途,然后开始开发;“Pull”指工程师提出需要开发的技术。语音识别属于“Push”类技术。
研究人员提到的语音识别技术的一种使用场景,是自动生成视频字幕。谷歌在2009年就开始这一方面的研究。
发现问题
Facebook最初专注于广告。当时的情况是,用户在关闭声音的情况下翻看自己的信息流,为了使广告更容易被用户注意到,广告客户需要在视频中添加文本。
Facebook语音架构集团工程师雷娜·菲利普(Reena Philip)表示,通过与广告团队合作,“我们开发出了原型产品”。
Facebook去年第二季度发布了这一功能。Facebook则继续深挖这一技术,自动为发布到其服务中的视频生成字幕。
坎德拉说,“我们进行过试验——增添字幕后,视频观看量增长了2位数。”
与视频字幕生成系统不同的是,Oculus语音识别功能是“Pull”的一个案例。
随着应用和游戏越来越多,Gear VR用户要找到喜欢的内容越来越困难。大声说出来成为获得具体内容的一种方法。
Facebook还需要确保与Gear VR配套的三星智能手机也能响应“Hey Oculus”命令。与Oculus Rift不同的是,Gear VR由配套手机提供运算能力,它本身没有强大的运算能力。
苹果和谷歌已经把语音激活开关整合到手机中,现在Facebook也要这样做。
菲利普表示,语音识别技术第四季度登陆Oculus时,它只支持美国英语,但团队已经开始为它增添更多种类的英语“方言”。
菲利普说,随着时间推移,Facebook可能使Oculus语音识别技术能在线下运行。Facebook还可能最终支持英语之外的其他语言。
除此之外,Facebook员工并不清楚公司在语音识别技术领域未来的发展。
目前,Facebook主要业务是社区。这可能决定Facebook语音识别技术的未来发展方向。Facebook产品经理默林·邓(Merlyn Deng)说,“我们未来的语音识别技术必须与公司使命,以及我们掌握的数据相契合。