这两天,想必你已经被 WWDC 的文章刷烦了。
作为一年一次必须“观看”的科技盛宴,WWDC 其实才进入第三天。一般围观群众最为关心的开幕已然结束,但在各式各样的中文总结之中却有一个苹果非常强调的词甚少出现,它就是隐私。
在一系列新隐私做法和策略中还出现了一个全新成员的面孔——Different Privacy(差分隐私),同时它也可能是目前解决大数据时代下隐私问题的最彻底办法之一。
新服务、新体验,背后却是来自隐私的挑战
图片来自 Theinspirationroom
虽说 10 个更新的 iOS 10 仍算不上单次更新最多的 iOS 版本,但是全新人工智能、大数据技术的加入,给苹果用户带来了全新的使用体验。而要达成这些这些功能,首先第一步就是要对用户的数据进行分析。
全新的 Home 应用让用户能够远程在统一的界面对家中的智能家居进行调整,毫不意外的,苹果对 Home 应用的远程控制数据也采用了与 Facetime、iMessenger 一样的端到端加密算法。
接下来照片应用不仅仅拥有原先的相册功能,同时还加入了深度学习功能。能够自动根据地点、主题、人、物将照片归纳分组,并且和一些相关资源组合,生成以“回忆合集”。苹果的做法也很简单,这部分用户信息的处理和加工全部只在 iPhone 本地完成。
同时苹果还表示在 Siri、Map 一类的日常服务应用中,不会以“用户个人档案”的形式进行数据的收集。
之后我们就迎来了本文重点需要讨论的“Different Privacy”,按照字面意思来看,它似乎指的是苹果在不同的应用中采用了不同的隐私策略,但它实际却是一种全新的用户数据收集方式,目的是从根本上保证在收集用户数据的同时,保护用户的隐私。
没错,听起来真的就是这么矛盾。
为了证明这项技术有多么先进,苹果的软件工程高级副总裁 Craig Federighi 还在现场展示了一段来自宾夕法尼亚大学的隐私研究者,Aaron Roth 教授的一段表态:
将 Different Privacy 广泛的结合进苹果现有的技术是非常有远见的,这也让苹果再次在隐私方面走在了一众科技公司的前面。
不被大家注意的“差分隐私”
正如主笔 Odin 在文章中写道的那样:苹果之所以会在 iOS 10 上面打造了这样一个以“开放”为主线的更新路线,其中最关键的可能就是新的关键算法——“Different Privacy(差分隐私)”。
所以 Different Privacy 究竟是个啥?用苹果官方给外媒 Wired 的官方回复来解释就是:
差分隐私会向用户的使用规律片段样本中添加数学噪声信息。随着越来越多人分享同一个使用规律,就会显现出通用的规律,从而得出可以提升整体用户体验的方法。
Wired 随后也给出了自己理解的版本,可能更加通俗易懂一点:
这是一种利用概率学原理,在尽可能多地了解一个群体的情况下不去了解这个群体内的人。拥有了这项技术的苹果,能够利用他们手机和存储的用户数据反过来了解用户言语、喜好、以及需求。即便是苹果自己也无法从中得出针对特定个人的数据,这对于黑客、情报组织来说也是一样的。
到这里,你肯定还是听的一头雾水。所以,不妨让我再来给你们解释一些背景信息。
图片来自Meetup
数据,是这个时代的一种全新“财产”,你可以通过采集用户的数据进行分析,从而得出他们的行为规律,并且反过来提升用户的使用感受。这也是“体验至上”时代每个产品的制胜法宝,连苹果都不例外。
但在被收集数据的时候,实际上用户都是“毫不知情”的(很多时候知道也没办法),很信息中哪怕夹杂着大量的隐私信息,也一样被发到了云端。
早在 2007 年,美国德州 Austin 大学的 Arvind Narayanan 和 Vitaly Shmatikov 就进行了一次实验,他们利用网络视频服务商 Netflix 提供经隐私处理的数据,与 IMDB 的数据进行比对,从而最终得出 Netflix 的匿名信息。
这也意味着在大数据技术的帮助之下,哪怕你对用户信息进行了匿名处理,用户的隐私依然无法得到保障。
图片来自Lecho
在大数据时代的当下,这些用来反向比对的数据总有办法获得。最为明显的例子就在于害人不浅的撞库,如果你不习惯每个网站用一个账号,那么迟早你会被“盗号”。更不要提安装人数分分钟上千万的各种国产输入法了,大多数从用户反馈的数据甚至使用明文进行传输。
很可惜,苹果目前也未透露其“差分隐私”技术的细节,同时也只是在 QuickType 键盘、表情推荐、Spotlight 深度链接推荐进行尝试。
根据 Microsoft Research 工程师 Cynthia Dwork 和上文中宾夕法尼亚大学 Aaron Roth 教授一起刊发的一份相关论文来看,“Different Privacy”即便是研究也处于一个非常前沿的状态:
差分隐私目前仍旧只是一个定义,目前我们能够利用它来测量一个随机算法的隐私性,而由分类定义错误导致的批评我们经常收到。
但在询问了国内安全、隐私的相关工程人士之后,他给出了对 Different Privacy 的看法
这是一个弱化之后的用户信息收集策略,关键在于不能从手机信息里还原具体是谁,但同时能够区分是哪一群体。整体步骤应该包括用户数据的“打碎”,并且降低不同碎片之间的关联性。
举个例子:
李雷放学之后,在学校门口的第三间书店见到了韩梅梅。然后在书店旁边的电影院看了《魔兽世界》,最后在和韩梅梅道别之后回到了自己在学校旁边的家里。
而苹果实际收集的数据却“很有可能”是这样的:
很多人会放学,很多人会在电影院看魔兽,很多人会告别
有一些人“放学+看魔兽”
有一些人“看魔兽+告别”
有一些人“放学+看魔兽+告别”
但是苹果实际是怎么从用户的数据里面来提取这样的“颗粒”?不知道。这个颗粒如何更新、组合、从而实现统计的有效性?还是需要实际试验。另外一种可能性在于苹果会通过收集这些“颗粒”来不断修正自己的结果。
苹果在 WWDC 现场提到的“不建立用户档案”正是其中一个重要的步骤,但如何降低用户数据碎片之间的关联性?在苹果选择公开之前,我们依旧无法得知。
科技巨头都纠结的问题:隐私 vs 体验提升
图片来自Lawyer247
有意思的是,大多数科技公司在有可能侵犯用户隐私的前提下,大量收集用户数据的目的不是出售用户的数据,而是分析用户的使用数据,从而更加了解用户,结合用户的喜好、想法,最终提升用户的使用体验。
正如微软中国 CTO 上个月底所说:
只要一上网,我们基本上等同于裸奔。只要你掏出手机打开 App,你今天去了哪儿、你的电话号码是多少、你的实时位置信息……你在手机上进行的一切动作,都被悄无声息地记录在册。
无论是之前的 Google Assitant、还是这次的 Siri,他们都拥有“预测用户接下来想输入什么”的能力,要实现这个能力,肯定不是靠人工逐个输入选项,而是由数据直接分析结果。而分析所用的数据则是从用户那里采集而来,从而也就将隐私问题拉下了水。
对之前一直都被视为封闭系统典型代表的 iOS 来说,这个问题并不突出,至少苹果对自己的安全技术有把握、有信心(连 FBI 都搞不定)。但既然选择了开放,这就为外界获得用户信息提供了可能。
这个潜在的“隐私危机”,大多企业的选择都是尽可能,但是对于影响力巨大的苹果来说,则是最终拍下“开放”按钮的必须前提。
图片来自USNews
从 07 年苹果发布一代 iPhone 以来,iOS 一直都被视为封闭系统的典型代表,当然这也有 Android 充当“绿叶”的原因。但实际,苹果纠结的并不是“要不要开放”,而是“开放”之后可能带来的安全、稳定性、生态等一系列问题。正如乔布斯自传中写道:
因为这样可能会把 iPhone 搞得乱七八糟,感染病毒,或者破坏其完整性。
而在用新方法解决了用户的隐私问题之后,苹果终于开始尝试“开放”,虽然不知道“Different Privacy”这项技术之后是否能够普及并且惠及人类,但苹果的吃螃蟹之举,必将给予科研人士和科技行业以信心和提醒。
最后 Craig Federighi 在 WWDC 上也用一张 Keynote 表明了苹果的决心:优秀的功能和隐私保护。