美国科技新闻网站BackChannel近日刊文,介绍了Facebook内部的人工智能团队及其发展现状。
在被任命为Facebook应用机器学习事业部(以下简称“AML”)负责人,帮助这家全球最大社交网络部署人工智能技术时,杰奎因·奎诺内罗·坎德拉(Joaquin Quinonero Candela)有些迟疑。
杰奎因·坎德拉,FacebookAML事业部工程总监
坎德拉是一位出生在西班牙的科学家,他总是自称“机器学习人士”。之所以有所迟疑,并不是因为他没有目睹人工智能给Facebook带来了多大的帮助。自从2012年加盟这家社交网络巨头以来,他已经见证了该公司广告业务的转变——他们利用机器学习技术提升了赞助内容的相关性和营销效果。
更重要的是,他通过一种独特的方式用技术武装自己部门的下属——即便这些人并没有接受过专业的人工智能技术培训。不仅如此,他还扩大了机器学习技术在整个广告部门的普及程度。
但他并不确定同样的“魔法”能在更大范围内展现出来,因为这个平台上的数十亿用户之间的联系取决于模糊的价值观,而不是用来衡量广告的硬性数据。“我需要确定这么做的确有价值。”他提到这次任命时如是说。
尽管有些怀疑,坎德拉还是接受了任命。而现在虽然距离那时仅仅过去两年时间,但他当初的迟疑却变得非常可笑。
究竟有多可笑?坎德拉上月在纽约的一次会议上对台下的一众工程师发表了演讲。“我要发表一份重要声明。”他警告说,“如果没有人工智能,Facebook如今已经无法存在下去。你或许并未意识到,但每当你使用Facebook或Instagram或Messenger时,你的使用体验都有人工智能的一份功劳。”
去年11月,我来到Facebook位于门罗帕克的总部采访坎德拉和他的团队时,便得以目睹人工智能如何在突然之间成为Facebook的生存养料。目前为止,提到Facebook在这一领域的发展,很多目光都会集中于该公司组建的世界级Facebook人工智能研究事业部(以下简称“FAIR”),该部门的领导者是著名的神经网络专家严·勒坤(Yann LeCun)。
与谷歌(微博)微软、百度、亚马逊和苹果(这家以保密著称的公司如今也允许其科学家发布研究成果)等竞争对手一样,FAIR也成为供不应求的顶尖人工智能项目毕业生优先选择的公司。计算机在视觉、听觉甚至对话能力上取得的进步都得益于这种类似于大脑的数字神经网络,而FAIR则是这方面研究成果最为丰厚的机构之一。
但坎德拉的AML事业部则负责将FAIR的研究成果与Facebook的实际产品融合到一起,更重要的是,他们还将帮助该公司的所有工程师,把机器学习技术融合到自己的工作中。
由于Facebook已经离不开人工智能,所以所有工程师都必须使用这项技术。
把人工智能塞到每个人手中
就在我造访Facebook前两天,美国刚刚结束总统大选,而该公司CEO马克·扎克伯格(Mark Zuckerberg)也刚刚在一天前回应称,那些宣称Facebook传播假新闻帮助唐纳德·特朗普(Donald Trump)当选美国总统的想法“太疯狂”。由于人们之前就对Facebook的假新闻泛滥状况心怀不满,所以扎克伯格的这番评论无异于火上浇油。
尽管很多争议并不在坎德拉的职责范围内,但他知道,Facebook需要借助机器学习技术来解决假新闻危机,而这恰恰是他团队的职责之一。
但为了让公司内部的公关人员安心,坎德拉还向我展示其他一些东西,以此体现他的团队正在从事的工作。令我意外的是,这其实是一套有点无聊的把戏:它可以将一张照片或一段视频按照某位著名画家的独特风格进行渲染。这很容易让我们想起Snapchat上的各种噱头——把照片转化成毕加索风格的画作早已不是什么新鲜技术。
“这种技术名为神经风格转移。”他解释道,“就是一套大规模的神经网络,它可以通过训练将一张照片重新绘制成特定风格的画作。” 他掏出自己的手机,拍了一张照片,然后在屏幕上操作了一番,照片很快就被渲染称梵高名画《星夜》(The Starry Night)的风格。
更令人惊奇的是,他还能在视频播放过程中将内容渲染成类似的风格。但他表示,真正重要的东西其实是在肉眼无法看到的:Facebook开发的神经网络已经可以在手机上独立运行。
这同样不算新奇——苹果之前也宣称已经可以在iPhone上完成一些神经网络计算。但由于Facebook并不控制硬件,所以他们面临的难度要大得多。坎德拉表示,他的团队之所以能完成这套“把戏”,是因为他们积累了大量经验——每个项目都可以降低其他项目的工作难度,每个项目也都可以让未来的产品在接受更少培训的情况下,开发类似的产品——从而加快类似项目的开发速度。
“从启动项目到公开测试,我只花了8个星期,这太疯狂了。”他说。
他表示,在这么短时间内完成任务还有另外一个秘诀,那就是合作——这也恰恰是Facebook文化的基石。具体到这个项目,正是因为能够轻易接触到其他事业部的研究成果——尤其是熟悉iPhone硬件的移动部门——才使得他们能够把原本需要借助数据中心才能完成的图像渲染任务,通过手机来独立实现。
从左到右依次为AML事业部工程总监杰奎因·坎德拉,应用计算机视觉团队负责人马诺哈·帕鲁丽,技术产品精力里塔·阿奎诺,工程经理拉简·苏巴
这项技术不仅可以方便用户为自己的亲友拍摄《呐喊》风格的短片,还能让整个Facebook变得更加强大。从短期来看,这让该公司得以更好地解读语言、理解文本。从长期来看,他还能对你的所见、所言展开实时分析。
“我们以秒为单位,甚至比秒还短——必须实时完成。”他说,“我们是社交网络,如果我要预测人们对某段内容的反馈,我的系统就要立刻作出反应,对吗?”
坦德勒又看了一眼他刚才拍的那张梵高风格的自拍像,完全不屑于掩饰自豪之情。“能够在手机上运行复杂的神经网络,便能将人工智能放到所有人的手上。”他说,“这并不是偶然发生的,这都得益于我们在公司内部展示人工智能的方式。”
“这是一场漫长的旅程。”他补充道。
微软老兵大显神威
坎德拉出生在西班牙,他3岁时随家人搬到摩洛哥,在那里的法语学校就读。尽管毕业时的文理学科都获得高分,但他还是决定入读马德里的一所学校,学习一门在他看来最难的学科:通信工程。这门学科不仅需要掌握天线和放大器等物理知识,还要对数据有充分的理解,他认为这“很酷”。
坎德拉对开发自适应系统的教授非常着迷。他自己开发了一套系统,利用智能过滤器来改善手机漫游信号,他现在将其称做“婴儿阶段的神经网络”。他对训练算法格外着迷,而不太喜欢大量编写代码。2000年在丹麦度过的一个学期进一步激发了他在这方面的兴趣,他在那里见到了机器学习教授卡尔·拉斯穆森(Carl Rasmussen)。
拉斯姆森曾在多伦多师从传奇人物、机器学习鼻祖吉奥夫·辛顿(Geoff Hinton)。毕业前夕的坎德拉原本要参加宝洁的领导力项目,但却接到了拉斯姆森的博士项目邀请。于是,他选择了机器学习。
2007年,他来到位于英国剑桥的微软研究院工作。入职后不久,他获悉微软正在举行一项面向所有员工的竞赛:该公司即将推出必应搜索,所以需要对关键字搜索广告进行改进——精确预测用户何时会点击一则广告。
优胜团队的方案将被投入实体测试,以便了解它是否有最终发布的价值。而优胜团队本身也将获得免费的夏威夷旅行作为奖励。共有19个团队参与竞赛,坎德拉的团队与另外一个团队并列第一。他获得了免费旅行的机会,但由于微软迟迟没有推进更重要的奖励,导致他感觉自己被欺骗了——微软一直没有对他的方案展开测试,以判断这个方案能否最终作为产品推出。
接下来发生的事情展示出坎德拉的坚决态度。他展开了一场“疯狂的运动”,说服微软给他一次机会。他在微软内部展开了五十多次对话,还开发了一个模拟器来展示自己算法的优越性。他甚至找到直接负责这项决策的副总裁:他在吃自助餐时主动坐到那位副总裁身边,甚至会抓住跟他一起上厕所的机会向其宣传自己的方案。他还在没有事先请示的情况下闯入这位高管的办公室,声称说话必须算数,他的算法的确更好。
最终,坎德拉的算法在2009年随同必应一起推出。
Facebook 20号楼内景
2012年初的一个周五,坎德拉到Facebook门罗帕克园区拜访了一个朋友。让他震惊的是,他听说该公司的员工不需要获得上司批准,也可以测试自己的项目。他们就是这么做的。于是他星期一便去Facebook参加面试,周末就拿到了录取通知。
加入Facebook广告团队后,坎德拉的工作是领导一个小组来展示相关性更强的广告。当时的确使用了机器学习技术,“但我们当时使用的模型不算先进,太过简单”。坎德拉说。
还有一位与坎德拉同时加盟Facebook的工程师,他叫侯赛因·梅哈纳(Hussein Mehanna),他对该公司在人工智能集成度方面的落后程度同样感到惊讶。“以外人的身份看待他们的产品质量时,我以为一切都已成型,但显然并非如此。”梅哈纳说,“没过几个星期,我就告诉杰奎因,Facebook真正缺乏的是一个行之有效的世界级机器学习平台。我们虽然拥有机器,但却没有合适的软件帮助机器对数据展开尽可能深入的学习。”(目前担任Facebook核心机器学习负责人的梅哈纳同样是微软老兵——接受本文采访的其他几名工程师也都有着相同的身份。这仅仅是巧合吗?)
梅哈纳所说的“机器学习平台”指的是部署一套最先进的人工智能范式:凭借着基于人脑行为模式的几种模型,这种范式把这项技术从上个世纪的“寒冬”(当时,早期的“思维机”想法已经提不起人们的兴趣)带到了最近的繁荣时期。
具体到广告业务,Facebook需要让它的系统完成一些人力无法企及的任务:实时而精确地预测有多少人会点击某一条广告。坎德拉和他的团队希望根据机器学习流程开发一套新系统。而由于该团队希望以平台的方式来打造这套系统,让该部门内的所有工程师都可以使用,所以他们在开发过程中努力确保建模和训练都能广泛推广和复制。
构建机器学习系统的重要因素之一便是获得海量数据——数据越多,效果越好。幸运的是,这恰恰是Facebook最大的资产之一:如果每天都有十多亿人与你的产品互动,你就可以收集大量培训资料,获得数不清的用户行为范例。
这也让整个广告团队的开发速度从几个星期推出一个新模型,变成了每个星期推出几个新模型。而由于这将成为一个平台,让其他人也可以在内部开发自己的产品,所以坎德拉必须在开发过程中让多个团队都参与其中。他们把整个过程精确地分成三个步骤:“先关注性能,再关注实用性,然后构建一个社区。”他说。
坎德拉的广告团队已经证明机器学习给Facebook带来的巨大转变。“我们在预测点击、点赞、转化等指标时实现了不可思议的成功。”他说。接下来自然是将这种方法延伸到更多服务中。事实上,FAIR负责人勒坤一直主张设立一个与之配合的部门,负责将人工智能技术应用到实际产品中。
“我非常希望成立这样一个部门,因为你需要组织一群顶尖工程师,虽然他们不必直接关注产品,但却需要关注基础技术,好让很多产品部门都可以对其加以利用。”勒坤说。
2015年10月,坎德拉成为新成立的AML团队负责人(但只担任了一段时间,原因在于他很谨慎,而且同时保留了广告部门的职位,需要同时身兼二职。)他与FAIR保持了密切关系,后者在纽约、巴黎、门罗帕克都设立了办事处。事实上,无论FAIR的研究员与AML的工程师在哪里比邻而坐,就相当于在那里设立了一个FAIR办事处。
双方的合作方式可以通过一款正在开发的产品全面体现出来:这款产品可以针对用户发表在Facebook上的照片提供语音描述。过去几年,训练一套系统识别某个场景中的物体,并得出一般性的结论,已经成为标准的人工智能实践模式。例如,可以通过这项技术判断一张照片究竟是在室内还是室外拍摄的。
但FAIR的科学家最近发现了一些方式来训练神经网络,几乎可以描述一张图片中所有有趣的问题,并通过这些物体在图片中的位置以及与其他物体的关系,判断这张照片的主题——从而精确分析出某张照片的主题是人与人的拥抱,还是某人正在骑马。
“我们把这项成果展示给AML的人。”勒坤说,“他们想了一会儿说,‘你知道,这在一种情况下非常有用。’” 他们之后便开发了一款原型功能,当盲人和视力受损的人将手指放在一张照片上时,便可用手机为其描绘照片上的内容。
“我们一直在沟通。”坎德拉提到FAIR时说道,“整体目标是把基础科学转化成具体项目,这就需要一种粘合剂,对吧?我们就是粘合剂。”
把基础研究用于实践
坎德拉将人工智能应用分为四大领域:视觉、语言、语音和拍摄效果。他表示,这四大领域都可以促成一套“内容理解引擎”。Facebook希望了解如何才能真正理解某段内容的含义,从而判断评论背后的细微意图;参透语言背后的精确含义;在飞速而过的视频画面中识别朋友的面部;解读你的面部表情并将其复制到虚拟现实的化身上。
“我们希望实现人工智能技术的通用应用。”坎德拉说,“我们需要理解和分析的内容呈现爆炸式增长,但我们添加标签和区分事物的能力却没有同步提升。” 要解决这个问题,就要开发一套通用系统,使得一个项目的成果可以进行累积,还能为其他从事相关项目的团队提供帮助。
坎德拉说:“如果我能开发许多算法,把一项任务的知识转移到另一项任务,那岂不是很了不起?”
这种转化可以对Facebook推出产品的速度产生重大影响。以Instagram为例。自从推出以来,这款图片服务都以逆向时间顺序展示用户的照片。但在2016年初,该公司决定使用相关性算法展示图片。
好消息是,由于AML已经在News Feed等产品中应用了这种算法,“不必从头开始。”坎德拉说,“他们有一两个精通机器学习的工程师与几十个正在部署各种排名应用的团队展开联系。之后便可复制这些模式,一旦有问题,还可以与这些模式的负责人沟通。”正因如此,Instagram才得以在短短几个月内完成如此重大的转变。
AML团队一直在探索各种用例,用自己的神经网络与不同团队的成果进行结合,从而开发一项适用于“Facebook规模”的独特功能。“我们在使用机器学习技术构建自己的核心能力,同时取悦我们的用户。”AML感知团队首席工程师唐默·莱万德(Tommer Leyvand)说。(他同样来自微软。)
最近推出的一项名为“社交推荐”(Social Recommendations)的功能就是典型例子。大约一年前,一位AML工程师跟一位Facebook共享团队产品经理谈到了人们在向好友征求当地的餐馆和服务建议时展开的深度互动。
“问题在于如何向用户展示相关信息。”AML自然语言团队产品经理里塔·阿奎诺(Rita Aquino)说。共享团队曾经尝试对特定短语进行文字匹配。“当你每天接受10亿个帖子时,这未必很精确,也未必可以大范围应用。”阿奎诺说。
Facebook技术产品经理里塔·阿奎诺
通过训练神经网络,然后用实时行为来测试各种模型,该团队便可察觉细微的语言差异,从而精确判断用户何时针对某一区域询问就餐或购物建议。这便会触发一条请求,显示在相应联系人的News Feed信息流中。接下来,仍然由机器学习来判断他人何时提供有用的建议,并将企业或餐厅的地点显示在用户News Feed信息流里的地图上。
阿奎诺表示,她在Facebook任职的一年半期间,人工智能从产品中难得一见的元素,变成了从初始阶段就融入其中的技术。“人们希望与之互动的产品更加智能。”她说,“其他团队看到社交推荐功能和我们的代码后会问:‘你们我们如何才能做到?’你不必非得是机器学习专家,也可以根据自己所在部门的经验进行尝试。”
具体到自然语言处理领域,该团队也开发了一套可以方便其他团队使用的Deep Text系统。它对Facebook翻译功能使用的机器学习技术起到了帮助,这项技术每天被应用到40多亿帖子中。
在图片和视频领域,AML团队则开发了一套名为Lumos的机器学习视觉平台。这个平台最早源自马诺哈·帕鲁丽(Manohar Paluri),当时身为FAIR实习生的他负责开发一个宏伟的机器学习项目,他称之为“Facebook的视觉皮质”——其目的是处理和理解Facebook上发布的所有图片和视频内容。
应用计算机视觉团队负责人马诺哈·帕鲁丽
在2014年的一场黑客松活动上,帕鲁丽和同事尼基尔·乔里(Nikhil Johri)用一天半时间开发了一个原型产品,并将结果展示给满怀热情的扎克伯格和Facebook COO雪莉·桑德伯格(Sheryl Sandberg)。
当坎德拉组建AML事业部后,帕鲁丽与他一同领导计算机视觉团队,并开发了Lumos,帮助所有Facebook工程师(包括Instagram、Messenger、WhatsApp和Oculus)充分利用这个视觉皮质。
有了Lumos,“公司里的任何人都可以使用这些多样化的神经网络上的功能,然后针对他们特定的场景构建各种模型,了解实际运行效果。”帕鲁丽说,他同时任职于AML和FAIR两个团队,“最后可以让一个人来给系统纠错,对其重新训练,然后推动它进步,不需要AML团队再介入其中。”
帕鲁丽给我简单地展示了效果。他在笔记本上启动Lumos,然后运行了一个样本任务:提炼神经网络对直升机的识别能力。有一个页面上包含很多图片——如果我们不断滚屏,大约会有5000张图片——里面有很多直升机照片,还有一些类似直升机的东西。(一个是玩具直升机,还有一些则是像直升机一样飘在空中的物体。)
在训练过程中,Facebook使用了公开发布的图片(不包括仅限于好友或部分用户查看的内容)。即便我并不是工程师,对人工智能技术更谈不上精通,但我却可以轻而易举地找到负面例子来训练系统构建“直升机图片分类器”。
最终,这个被称作“监督式学习”的归类步骤可能更加自动化,因为该公司正在追求机器学习领域的圣杯——“非监督式学习”——在这种模式下,神经网络可以自己判断这些图片中究竟是什么内容。帕鲁丽表示,该公司已经取得了一些进展。“我们的目标是在未来1年将人类的注释减少100倍。”他说。
从长远来看,Facebook认为视觉皮质将与自然语言平台共同成为坎德拉所谓的通用内容理解引擎。“我们最终无疑会将它们融为一体。”帕鲁丽说,“到那时,我们就会直接开发‘皮质’。”
Facebook希望他们在技术进步中使用的核心原则可以通过发表论文等方式传播到公司外部,利用这种民主化模式更加广泛地传播机器学习技术。“你不必再花费漫长的时间开发智能应用,速度可以大幅加快。”梅哈纳说,“想象一下这项技术对制药、安全和交通的影响。我认为,在这些领域开发应用的速度可以加快好几百个量级。”
面临无解难题
尽管AML已经深度融合到研发流程之中,为该公司的产品赋予了视觉、分析甚至语言能力,但该公司CEO扎克伯格还认为,在他努力利用Facebook为社会创造福利的过程中,这项技术将起到至关重要的作用。
在扎克伯格之前发表的5700字宣言中,这位CEO 7次提到了“人工智能”或“AI”,都是在描述如何利用机器学习和其他技术提升社会安全性和信息量的背景下提到的。
要实现这些目标并非易事,这与坎德拉最初对AML的职位犹豫不决时的原因相同。如果你试图成为主要的信息来源,并为数十亿用户构建个人关系,即使是机器学习也无法解决这一过程中面临的所有人为问题。正因如此,Facebook才不断修改News Feed算法——当你自己都无法真正确定时,又该如何通过训练让系统给出最优组合呢?
“我认为这个问题几乎无解。”坎德拉说,“如果随机展示新闻,你会觉得浪费时间。如果只展示来自朋友的新闻,那就会赢家通吃。最终会不停地讨论两种极端情况之间的哪个状态才是最好的。我们试图展开一些探索。”
Facebook将继续使用人工智能来解决这个问题,这已经成为其在每个领域发展的基础动力。“机器学习和人工智能领域有很多研究都希望能够优化合适的探索水平。”坎德拉满怀希望地说。
当Facebook被人当做假新闻的元凶时,他们自然会要求人工智能团队尽快从该平台上清洗所有的新闻毒瘤。这是一场罕见的全员行动,甚至连一向着眼长期前景的FAIR团队也参与进来。勒坤表示,该团队担任顾问的角色。
结果,在FAIR的努力下,他们已经开发出一款有助于解决该问题的工具:一个名为WorldVec(vec是“向量”的缩写)的工具。WorldVec为神经网络增加了某种记忆能力,帮助Facebook给所有内容都贴上信息标签,例如它的来源,以及都有哪些人分享过这些内容。
借助这些信息,Facebook便可了解假新闻的分享特征,并使用该公司的机器学习算法根除毒瘤。“结果表明,寻找假新闻并不像判断人们最喜欢哪些内容那么困难。”勒坤说。
坎德拉的团队之前开发的系统加快了Facebook推出这些审核产品的速度。这些产品的具体表现仍然有待观察。坎德拉表示,现在就通过数据展示该公司利用算法减少了多少假新闻,还为时过早。
但无论这些新的措施是否奏效,这些困惑本身还是引发了一个问题:这种用算法解决问题的模式——在机器学习时代得以进一步加强——是否会不可避免地带来有害的结果。很显然,有人认为这已经在2016年发生了。
坎德拉否认这种观点。“我认为我们把世界变得更加美好。”坎德拉还主动讲了个故事。就在他接受采访的那天,坎德拉给他在Facebook上的一个联系人打了个电话——那人是他朋友的父亲,他们之前只见过一面。
他看到那人发了许多支持特朗普的内容,并对这些内容感到困惑。随后,坎德拉意识到,他的工作是根据数据制定决策,而他却忽视了重要信息。所以,他给那人发了信息,希望跟他聊聊。那位联系人同意了,于是,他拨通了电话。
“这并没有改变我身处的现实,但却让我以截然不同的方式来看待事情。”坎德拉说,“在没有Facebook的世界里,我永远不会有这样的联系人。”
换句话说,尽管人工智能成为Facebook的关键元素,甚至事关这个平台的存亡,但它却并非唯一答案。“现在的挑战在于,人工智能仍处于初级阶段。”坎德拉说,“我们才刚刚起步。”