一
2014年7月30日,Siri进行了一次大脑移植。
在之前3年,苹果成为第一家在操作系统中整合智能助手的大型科技公司。Siri改造自该公司2010年收购的一款独立应用,他们同时还获得了这款应用的开发团队。最初的评估令人欣喜若狂,但接下来的几年间,用户却对它的缺点失去了耐心。它经常听错指令,无论怎么修改都无法解决。
于是,苹果在那一年的7月底使用神经网络技术来支持为美国Siri用户提供语音识别功能(该服务到2014年8月15日面向全球发布)。之前的一些技术仍然在使用,但现在,这套系统用上了最新的机器学习技术,包括深度神经网络、卷积神经网络、长短期记忆单元、门控循环单元和n-gram。当用户完成升级后,Siri看起来没什么变化,但它却在深度学习技术的促进下实现了巨大进步。
由于担心底层技术的升级可能将自己的想法暴露给竞争对手,苹果还是像往常一样,并没有对外公布这项措施。如果用户注意到这一变化,也只是因为Siri犯的错误比以前减少了。事实上,苹果现在表示,这项技术给Siri的准确率带来了惊人的提升。
“当时的效果很明显,我们甚至专门进行了测试,确保没有人点错小数位。”苹果互联网软件和服务高级副总裁艾迪·库伊(Eddy Cue)说。
苹果高级副总裁艾迪·库伊
这是Siri“大脑移植”的故事首次对外公布,这甚至令很多人工智能业内人士感到惊讶。他们惊讶的并不是神经网络给Siri带来的提升——这是理所当然的——而是苹果竟然如此悄无声息地部署了这样的技术。直到最近,当苹果加紧招募人工智能人才,并部署一些高调并购时,观察人士还认为苹果在这个最热门的竞争领域姗姗来迟——毕竟,各大企业都在加紧利用这些强大的人工智能技术。由于苹果对其开发过程始终守口如瓶,所以就连人工智能专家都不知道该公司在机器学习领域的进展。“他们根本不在这个圈子里。”在斯坦福大学讲授人工智能发展史的杰瑞·卡普兰(Jerry Kaplan)说,“苹果就像人工智能领域的NSA(美国国家安全局)。” 在人工智能领域的大咖们认为,如果苹果在这项技术上取得了与谷歌和Facebook水平相当的进展,他们应该听说过。
“谷歌、Facebook和微软都聘请了顶尖的机器学习人才。”艾伦人工智能学院的奥伦·艾奇奥尼(Oren Etzioni)说,“没错,苹果招募了一些人才。但谁是苹果机器学习领域的五大领导者?苹果的确拥有语音识别技术,但目前还不清楚机器学习还在其他哪些方面为其带来了帮助。给我看看你们的产品还在哪些方面使用了机器学习!”
“我来自密苏里”艾奇奥尼说,他实际上来自以色列。“给我看看。”
二
本月早些时候,苹果向我展示了,机器学习如何应用于苹果的产品。在苹果库比蒂诺总部,我花了整天时间,在报告厅里了解苹果在人工智能和机器学习方面的工作。苹果高管,包括库伊、全球营销高级副总裁菲尔·席勒(Phil Schiller)、软件工程高级副总裁克雷格·费德里西(Craig Federighi),以及两名关键的Siri科学家进行了展示。在落座之后,他们拿出了一份两页纸的文件,上面列出了他们想要讨论的关于机器学习的产品和服务。其中一些已经发布,还有些即将发布。
苹果想要传达的信息是:我们已经在这里。我们是行业的参与者。不输给任何人。然而,我们要以自己的方式去做这件事。
如果你是iPhone用户,那么你已经接触过苹果的人工智能,而这并不仅仅是Siri。你可以看到,如果来电号码不在通讯录中,那么手机将会进行识别;如果你将屏幕滑动至最左侧,那么可以看到最常用的应用列表;如果你预订过某家酒店,那么酒店位置会在地图上自动显示;在你需要找车时,手机会告诉你车停在哪里。这些技术都来自于苹果对深度学习和神经网络的使用。
是的,苹果已成立了“Apple Brain”,而这就存在于你的iPhone中。
iPhone拍照的人脸识别中已经加入了神经网络技术
苹果的人士表示,机器学习目前已存在于苹果的所有产品和服务中。苹果运用深度学习技术去探测在线商店的欺诈活动,延长电池续航时间,以及从数千名测试者的报告中识别最有用的反馈信息。利用机器学习,苹果可以向用户推荐新闻,判断Apple Watch手表用户是在健身还是在散步,识别照片中的地点和人脸,检测WiFi信号是否很弱并需要切换至移动通信网络,以及帮助用户方便地一键拍摄微电影。苹果的竞争对手也在从事类似工作,但根据苹果高管的说法,其他公司的技术无法同时确保强大的性能,以及像苹果一样保护用户隐私。当然,这些公司的技术也无法带来像苹果一样的产品。
对苹果来说,人工智能技术并不新颖。早在90年代,苹果就在手写识别产品中集成了机器学习技术。当时的技术也被沿用至苹果今天的产品,例如将手写汉字转换为文本,以及Apple Watch用户的“涂鸦式”输入。(实际上这两项功能都是由同一组工程师开发的。)毫无疑问,早期的机器学习非常原始,深度学习也还没有成为流行词。今天,这些人工智能技术非常火爆,而苹果则表现得很低调。近几周,苹果CEO蒂姆·库克(Tim Cook)提到,苹果正在从事这些技术。而目前,苹果高管开始进一步讲解这些技术。
苹果在Apple Watch的健身App中加入机器学习
席勒表示:“我们看到,过去5年这些技术在苹果内部的发展。我们的设备以更快的速度变得更智能,尤其是在配备苹果设计的A系列芯片的情况下。后端变得更智能、速度更快,而我们所做的一切都被互联在一起。这使更多的机器学习技术成为了可能,因为有很多素材可供学习。”
即使苹果正在全面拥抱机器学习,但苹果高管仍表示,这对苹果来说只是普通的业务行为。他们表示,深度学习和机器学习只是一系列突破性技术的最新一环。这些技术具备变革意义,但并不比其他技术进步,例如触摸屏、平板显示,以及基于对象的编程更重要。与其他公司不同,在苹果看来,机器学习并不是最后的前沿。库伊表示:“并不是说,过去多年没有其他技术去改变我们与设备互动的方式。”在苹果,没有人想要触及关于人工智能更深远的设想。例如苹果不会讨论,该公司是否正在开发无人驾驶汽车或类似Netflix的流媒体视频服务。不过,苹果的团队明确表示,苹果并没有在开发“天网”。
席勒表示:“我们使用这些技术去实现我们一直想要实现的目标,比以往做得更好,或是去完成以往没有能力做到的事。随着在苹果内部的发展,以及我们持续开发产品,最终这将成为一项极具苹果风格的技术。”
根据苹果高管的介绍,人工智能在苹果生态系统的整体体验中扮演着重要角色。有观点认为,缺少搜索引擎限制了苹果的能力(搜索引擎可以带来大量数据,用于训练神经网络),而执着于保护用户信息也带来了不利影响(苹果不愿利用用户的许多数据)。然而我们现在可以看到,苹果已经知道如何克服这两大障碍。
那么,iPhone中用于机器学习的大脑究竟有多大?苹果给出了这样的信息:约200MB,这取决于其中保存了多少个人信息(旧信息会被持续删除)。这些信息包括应用的使用,与他人的互动,神经网络的处理,语音建模,以及“自然语言事件建模”。苹果获得的数据可以帮助神经网络去识别对象和人脸,以及对场景进行分类。
根据苹果的说法,在这一过程中,用户的偏好和历史足迹等信息都将是私密的。
三
尽管苹果没有对所有人工智能项目进行详细的解释,但我已经可以理解,苹果如何将关于机器学习的专业性传播至整个公司。苹果的机器学习团队是全公司共享的,产品团队被鼓励与机器学习专家合作去解决问题,设计单个产品中的功能。费德里西表示:“关于机器学习,我们并没有统一而集中的部门。我们尝试让机器学习专家靠近团队,帮助团队利用这些技术,提供合适的用户体验。”
那么,在苹果内部有多少人正在从事机器学习的开发?费德里西的回答是“很多”。(透露具体数字并不是苹果的风格。)有趣的是,苹果机器学习团队中的许多人在加入苹果之前并非从事这方面工作。费德里西表示:“我们招聘了来自数学、统计学、编程语言和密码学等基础领域非常聪明的人才。结果表明,许多这类核心人才能很好地转移至机器学习领域。尽管目前的机器学习团队已经很庞大,但我们还在关注具备适当核心技能的人才。”
软件工程高级副总裁费德里西(左)正在听Siri团队负责人阿赛洛讨论语音识别软件
尽管费德里西没有明确指出,但可以看到这样的做法是必要的。苹果的保密倾向给该公司带来了不利,因为苹果的竞争对手可以鼓励明星级计算机科学家在全球范围内传播研究成果。费德里西表示:“我们的做法是一种自然选择:你是有兴趣在团队中开发优秀的产品,还是希望独自发表自己的成果?”在优化苹果产品的过程中,如果科学家还能在自己的领域取得突破,那么当然很好。但库伊表示:“我们受最终结果的驱动。”
这一领域的许多人才来自于收购。库伊表示:“我们近期每年收购20到30家规模相对较小的公司,主要是为了获得人才。”当苹果收购人工智能公司时,苹果并不会说:“这里有一群机器学习研究者,让我们把他们圈养起来。”苹果希望得到具备这方面能力,同时又专注于带来优秀体验的研究者。
苹果近期的一笔收购是来自西雅图的Turi。有报道称,苹果斥资2亿美元收购了这家公司。Turi开发堪比谷歌TensorFlow的机器学习工具包。外界猜测,苹果将会以类似目的去利用Turi,无论是在公司内部还是面向开发者。苹果高管没有对此置评。库伊表示:“从技术和人才角度来看,他们有些东西非常适合苹果。”未来一两年内,我们可能会看到重大变革。苹果2013年收购了创业公司Cue,该公司的预测技术将会被用在Siri中。
无论人才来自何处,苹果的人工智能基础设施都能帮他开发产品和功能。而以往这是不可能的。这改变了苹果的产品路线图。席勒表示:“在苹果,炫酷创意永远没有尽头。由于机器学习的帮助,以往被我们否定的想法现在可以着手去做。这将会影响我们未来产品决策的流程。”
其中的案例之一是搭配iPad Pro使用的Apple Pencil触控笔。在开发这一触控笔的过程中,苹果发现,当人们在设备上书写时,手掌总会碰到触摸屏,影响书写的准确性。利用机器学习技术,屏幕传感器可以以非常高的准确率识别滑动、触摸,以及触控笔输入的不同之处。费德里西表示:“如果性能无法做到坚如磐石,那么就不适合书写,而Pencil就不是一款优秀的产品。”现在,如果你喜欢使用Apple Pencil,那么要感谢机器学习技术。
四
或许,衡量苹果机器学习研究进展的最佳方式正是苹果在人工智能领域最重要的一笔收购:Siri。Siri最初来自美国国防部高级研究计划局(DARPA)在智能助手领域的一个项目。随后,部分科学家成立了一家公司,利用这项技术开发了一款应用。2010年,史蒂夫·乔布斯(Steve Jobs)说服这家公司的创始人把公司卖给苹果,并将Siri集成至苹果的操作系统。在2011年10月推出iPhone 4s时,苹果重点推介了Siri。用户需要按下iPhone的Home按钮,或是对着手机说“Hey Siri”,才能将Siri激活。(这项功能本身就用到了机器学习技术,令iPhone既可以收听语音命令,又不至于耗电量太大。)不过,Siri的应用不止于此。目前,Siri被集成在了非常保密的Apple Brain中。
关于这方面的核心产品,苹果提出了四大要素:语音识别(理解用户正在说什么)、自然语言理解(知道用户想表达的意思)、执行(完成某一请求),以及回应(用语音回复用户)。他表示:“机器学习以非常重要的方式对所有这些环节产生了影响。”
Siri高级开发负责人汤姆·格拉伯(Tom Gruber)在最初的收购中加入了苹果(他的联合创始人于2011年离职)。他表示,在苹果将神经网络技术应用于Siri之前,其规模化的用户就带来了大量数据,而这成为了随后训练神经网络的关键。“乔布斯说过,你们要在一夜之间从一项试点、一款应用拓展至1亿用户,同时没有任何测试项目。突然之间,你就能得到大量用户。他们会告诉你,用户对你应用的反馈是什么。这是第一次革命。随后,神经网络技术被集成进来。”
Siri高级开发负责人汤姆·格拉伯(上)和Siri团队负责人埃里克斯·阿赛洛
实际上,在处理语音识别的过程中,Siri转向神经网络技术是由于多名人工智能专家的到来。这其中包括语音团队的负责人埃里克斯·阿赛洛(Alex Acero)。阿赛洛早在90年代初就在苹果从事语音识别的研究,而随后还曾供职于微软研究院。他表示:“我喜欢从事这方面工作,并发表过很多论文。然而在Siri推出时,我感觉,如果希望将这些深度神经网络变为现实,那么这是个机会。这将不再只是几百个人会阅读的研究成果,而是被数千万人使用。”换句话说,他就是苹果期望的科学家类型:优先关注产品,而不是发表论文。
在3年前阿赛洛加入苹果时,Siri的语音技术仍然从第三方授权而来,而这样的局面急需改变。费德里西指出,这是苹果多次采取的模式:“如果有迹象表明,某一技术领域对于我们提供优秀的产品非常关键,那么我们将进行内部开发,提供我们想要的体验。如果想让某一技术变得优秀,那么我们需要拥有这一技术,并展开内部创新。语音识别是个很好的例子,我们利用外部技术去起步。”
这一团队开始训练神经网络,取代Siri最初采用的技术。阿赛洛表示:“我们拥有有史以来最庞大的GPU(图形处理单元)阵列,而我们向其中输入了大量数据。”在2014年7月上线之后,结果证明他们的工作行之有效。他指出:“对于所有语言,错误率下降了一半,而在很多情况下甚至超过一半。这主要是由于深度学习技术,以及我们采取的优化方式。这不仅是对算法本身,也是对整个端到端产品。”
“端到端”的说法很形象。苹果并不是第一家将深度神经网络用于语音识别的公司,但苹果指出,通过控制整个系统,该公司获得了优势。阿赛洛表示,由于苹果自行设计芯片,因此他可以直接接触芯片设计团队和固件开发工程师,从而最大化神经网络的性能。Siri团队的需求甚至影响了iPhone的整体设计。
费德里西表示:“不仅仅是芯片,这也影响到我们要在设备中集成几个麦克风,麦克风的位置,如何优化硬件、麦克风,以及用于声音处理的软件。这些都需要考虑。相对于只开发软件的公司,这是令人难以置信的优势。”
另一项优势:在被用于某款产品时,苹果的神经网络可以成为其他应用的核心技术。例如,帮助Siri了解用户的机器学习技术可以成为处理语音输入的引擎。而由于Siri的存在,用户会发现,如果使用语音输入而不是软键盘,那么他们的消息和电子邮件将会更连贯。
关于Siri,库伊提到的第二大要素是自然语言理解。从2014年11月开始,Siri就利用机器学习技术去理解用户的意图,并在一年后发布了基于深度学习的版本。机器学习技术优化了用户体验,尤其是用户可以更灵活地去表述命令。库伊掏出自己的iPhone,激活了Siri。他对着手机说:“通过Square Cash向简恩转账20美元。”手机屏幕上显示了他的命令。随后,他用略微不同的语言再次发出这个命令。“向我老婆发20美元。”结果仍是同样。
苹果会说,如果没有Siri的进步,那么当前一代支持复杂语音控制的Apple TV无法成为现实。早前版本的Siri要求用户以固定方式说出语音命令。而目前基于深度学习的Siri不仅能从大量的电影和歌曲中找出特定的择,还能处理一些模糊的概念:推荐几部汤姆·汉克斯的优秀惊悚片。费德里西指出:“在这项技术得到应用之前,你无法做到这一点。”
今年秋季,苹果将发布iOS 10,而Siri语音技术的最后一个环节也将被机器学习所改变。深度神经网络将取代苹果从第三方授权而来的技术。之前,Siri语音来自预先录制的声音数据库,每个句子实际上都由单词拼接在一起。格拉伯表示,机器学习将会使Siri语音更流畅,更像是真人在说话。
阿赛洛进行了展示。最初是我们熟悉的Siri语音,这样的声音充满了机器感。随后,他又展示了新版Siri语音,而这一版本可以流畅地说出:“嘿,我能为你做些什么?”那么是什么带来了不同?阿赛洛表示:“就是深度学习。”
尽管这看起来只是一些小细节,但更自然的Siri语音可以带来很大改变。格拉伯表示:“如果语音质量更高,那么人们就会更信任Siri所说的内容。更好的语音能吸引更多用户,促使用户更多地使用。因此,这将带来收益递增效应。”
随着苹果将Siri开放给其他开发者,用户使用Siri的意愿以及机器学习带来的优化对苹果而言将变得更重要。实际上,关注苹果的评论人认为,苹果早就应该将Siri开放。许多人指出,苹果的第三方Siri合作伙伴只有数十家,落后于亚马逊Alexa。后者宣称,外部开发者给Alexa带来了超过1000种“技能”。苹果则表示,这样的对比没有意义,因为亚马逊用户需要用特定命令去调用这些“技能”。Siri可以用更自然的语言去集成SquareCash和Uber等服务。(苹果的另一家竞争对手,即Siri创始团队开发的新版语音助手Viv也将集成第三方服务,不过Viv的发布日期尚未确定。)
与此同时,苹果报告称,Siri的优化带来了改变。通过常见的搜索请求,用户可以发现新功能,得到更多信息。库伊表示:“请求数量正越来越多。我认为,我们需要更好地传播我们所做的工作。例如,我喜欢体育。你可以问Siri,它认为哪支球队将赢得比赛,而你可以得到答案。连我都不知道,我们已经能做到这一点。”
五
在接纳机器学习技术的过程中,苹果面临的最大问题或许在于,如何在保护用户隐私的情况下取得成功。苹果会将用户信息加密,而其他所有人,包括苹果律师,都无法获得这些数据(美国FBI(联邦调查局)在拥有搜查令的情况下同样拿不到这些数据)。此外,苹果宣布不会因为广告目的而收集用户信息。
尽管从用户的角度来看这样做很好,但这不利于吸引人工智能人才。一名现供职于人工智能公司的苹果前员工表示:“机器学习专家想要获得的就是数据。考虑到对隐私保护的立场,苹果实际上对你有所限制。你可以辩论这样做是否正确,但苹果也因此被认为不是真正的人工智能发烧友。”
苹果高管则不赞同这样的观点。他们表示,不需要将用户信息保存至云计算平台,甚至也不必保存用户行为的实例,机器学习系统就能获得所需的全部数据。费德里西表示:“这是一种错误的观点。尊重用户隐私对我们来说是一种好形象。我们将向行业的其他公司展示我们要怎么去做。”
这其中包括两方面的问题。其一是利用机器学习系统去处理个人信息。如果用户信息通过神经网络去处理,那么这些信息将会被如何利用?其二则涉及到收集信息去训练神经网络,识别用户行为。如果不去收集用户信息,你要如何才能做到这点?
苹果表示,对于这两方面问题,该公司都已有答案。库伊表示:“有些人认为,我们的人工智能做不到这点,因为我们不掌握数据。但我们已经找到方式去获得所需的数据,同时仍然保护用户隐私。这是底线。”
借助对软件和硬件的控制,苹果可以解决第一个问题,即在神经网络处理的过程中保护用户的个人偏好和其他隐私信息。简单来说,最私密的信息将会被保存在Apple Brain中。费德里西表示:“对于最敏感的信息,机器学习发生在设备本地。”具体的例子包括应用推荐,即最左侧屏幕上显示的常用应用图标。在理想情况下,这应当是用户接下来想要打开的应用。这样的预测基于一系列因素,而其中大部分都与他人无关,而只与用户自己有关。这样的预测效果很好,费德里西表示,在90%的情况下,用户会从这些预测中找到所需的信息。苹果直接从手机内完成了计算。
苹果在设备本地保存的信息还包括另一块个人数据:用户通过iPhone QuickType键盘输入的单词。神经网络系统会关注用户正在输入什么,并从中识别出关键活动和项目,例如航班信息、联系人,以及日程安排。然而,这些信息全部位于设备本地。即使数据会通过云计算平台备份,但仅仅凭借备份的数据无法恢复出原始信息。费德里西表示:“我们不希望这些信息保存在苹果服务器上。苹果没有必要知道你的习惯,或是你曾经在哪天去过哪里。”
苹果也试图让保存的信息最少化。费德里西提到,用户对话中的关键词可能会触发搜索。他指出,其他公司可能会在云计算平台上分析整个会话以识别可能的关键词,但苹果的设备不需要上传数据就可以做到这点,因为系统会持续根据手机中保存的信息去进行匹配。(这就是200MB的Apple Brain的一部分。)
费德里西表示:“这是精炼而彻底的知识集合,其中涉及到数十万位置和实体。我们将其本地化是因为我们知道你在哪里。”苹果的所有应用都可以利用这一知识集合,例如Spotlight搜索应用、地图和Safari浏览器。这也给自动更正带来了帮助。费德里西表示:“这在后台持续运行。”
那么,苹果对隐私保护的强调是否会不利于神经网络算法?这就是以上的第二个问题。神经网络需要大量数据去进行训练,才能提高精确度。如果苹果不愿跟踪用户的所有行为,那么要如何才能获得这些数据?与其他许多公司的做法类似,苹果利用公开信息去训练神经网络(例如用公开的照片去训练图像识别)。不过有些时候,苹果需要更及时、更特殊的数据,而这些数据只能来自于用户。对于这种情况,苹果的做法是将用户信息匿名化,确保数据不会关联至某个特定的Apple ID帐号。
从iOS 10开始,苹果将采用一种名为“差异化隐私”的新技术。苹果将以众包的方式获得信息,不会识别信息来源。通过这种技术,苹果可以发现知识集合中尚不存在的热门关键词,对某一请求更具相关性的新链接,以及某些emoji表情突然被更多人使用。费德里西表示:“业内解决这类问题的传统方法是向服务器上传你输入的所有单词,随后进行分析并发现有趣的趋势。我们会进行端到端加密,因此我们的做法不同。”实际上,苹果已经采取措施,更大规模地部署“差异化隐私”技术。库伊表示:“我们将把这一技术从研究阶段推向10亿用户。”
费德里西则表示:“我们从几年前就开始开发这一技术,因此目前已可以规模使用。这一技术的隐私保护能力很疯狂。”他表示,苹果在其中贡献巨大,有益于整个世界。此外,苹果已经授权该公司的科学家发表相关成果。
六
很明显,机器学习改变了苹果的产品,而目前尚不清楚的是,这是否改变了苹果本身。从某种意义上来说,机器学习的概念与苹果的气质不符。苹果通常会谨慎地控制用户体验,甚至对控制滑动操作的传感器也会精益求精。所有一切都有着预先的设计,并得到了精确编码。然而当工程师开始使用机器学习时,他们必须做出让步,让软件自身去发现解决方案。苹果能否适应这样的现状,即机器学习自身能处理好产品设计?
费德里西表示:“这引发了内部争论。我们习惯于提供有着良好设计、精心制作的体验,我们会控制系统与用户互动的所有方面。当你开始基于用户行为的大量数据去训练一个系统时,结果可能并不是苹果设计师所能确定的。这些结果来自于数据。”
不过席勒表示,苹果不会畏缩。“尽管这些技术影响了你的设计方式,但最终我们仍会使用这些技术,因为这帮助我们提供更高质量的产品。”
或许这就是结论:苹果可能不会明确宣告全面进军机器学习,但苹果将会尽可能地利用机器学习技术去优化产品。用户手机中的“Apple Brain”就是证明。
席勒表示:“普通用户每天都会体验深度学习,这就是你为何喜爱苹果产品的原因。最有趣的一点在于,机器学习的实现非常微妙,直到你再三看见它时,才会意识到它的存在。随后你会思考,这是怎么做到的?”