GDPR 是什么?

早在今年 3 月,AI 前线就嗅到了欧盟将出台的 GDPR 并不一般(史上最严苛隐私数据保护法 5 月生效!)。果不其然,当这部宣称史上最严的隐私数据保护法于 5 月 25 日正式生效之后,陆续传来不少巨头公司为应对 GDPR 采取行动的消息,如美国几家网站壮士断腕,直接屏蔽了欧盟的用户,Facebook 和亚马逊等增加数据审核工程师,还陷入了用户诉讼的泥潭...

GDPR:中国互联网技术弯道超车的最大机会_java

相较而言,国内企业对这一政策的态度普遍比较冷淡(大家都明白,特殊国情),可能很多人还不知道 GDPR 到底是啥。

GDPR 全称 General Data Protection Regulation(欧盟通用数据保护条例)。简而言之,这可能是有史以来覆盖面最广的一次用户隐私数据保护法修改。其要点有三:

1)范围广:只要是从事涉及欧盟公民个人数据处理业务的企业和机构,包括跨国公司(如 BAT 等所有互联网企业)都在它的“魔爪”之下

2)惩罚狠:违反 GDPR 的组织可能会面临最高全球年营业额 4%或 2000 万欧元(取较高值)的罚款;

3)用户隐私权受到更多保护:获取和使用数据需征得用户同意,数据主体拥有获得违规通知权、访问权、数据擦除(满足一定条件)、数据迁移、隐私设计等权利。

中国 VS 国外:冰火两重天国外“水深火热”

GDPR 生效后,国外和国内企业的反应截然不同,国外已经积极采取措施应对,而国内似乎反应不大,目前还未耳闻有大型公司针对这一法律采取较重大的措施。

欧洲用户访问《洛杉矶时报》网站时显示的公告:非常不幸,本网站目前在大部分欧洲国家已经无法访问。

在美国,GDPR 法案实施两天后,一大批未能在 5 月 25 日之前完成合规性工作的科技和新闻网站成了第一批牺牲者,包括《洛杉矶时报》、《芝加哥论坛报》、《巴尔的摩太阳报》等网站目前在欧盟地区已经无法打开。美国国家公共广播电台(NPR)网站则要求欧洲访客做出“抉择”:要么签署新的用户协议、要么就只能收看到该媒体 1996 年及以前的纯文字内容。还有不少公司索性直接批量删除欧洲范围的客户资料,惹不起还躲不起吗?他们宁愿选择“壮士断腕”,也不愿冒巨大的风险。

过去这几天,很多国外网友(或注册了国外网站的国内网友)的邮箱都接到了互联网服务提供商发来的无数用户协议更新邮件,希望得到确认。这些邮件实在太多了,不堪其扰的用户甚至用漫画来调侃:发这么多 GDPR 邮件本身就是侵犯我个人空间好不?

也有很多公司经过衡量合规成本后,决定直接撤出欧盟市场。

对于这种直接屏蔽欧洲用户的做法,有人批评认为这是一种典型的“懒政”,违背了 GDPR 的精神,对企业、用户、甚至整个行业都有害,也有人认为企业的这种做法主要是为了满足企业的业务需求和发展,更好的办法需要更多的探讨。更是有人说出大实话:能够获取到用户数据而不去使用获利的企业,乐观估计应该也不到百一。面对海量价值的数据宝藏,有多少企业能够“坐怀不乱”?人性使然。“用户在未来互联网世界里会有绝对权力。一切算法和技术的发展都是在增长用户权力和增长企业利润中寻找平衡。”,这是我们可以想象到的企业与用户之间最切合实际的模式了。

国外科技巨头应对 GDPR 的态度还算积极,在这项政策制定的过程中,它们先后采取了措施:


微软副首席法律顾问 Julie Brill 在一篇官方博客中透露,微软已经为 GDPR 项目投入了 1600 多名工程师,他们将为全球客户提供正在为欧洲建设的符合 GDPR 的工具,微软的客户可以查看、删除和移动他们的个人数据。


3 月底,亚马逊宣布 AWS 已经为 GDPR 做好准备:“AWS 服务将按照您的要求实施安全措施,以遵守 GDPR。”


扎克伯格 5 月 22 日在欧洲议会听证会中表示,Facebook 已经为 GDPR 做好准备,并且“很大一部分”用户已经被提示更新隐私设置。Facebook 还将美国、加拿大和欧盟国之外的约 15 亿用户的注册地从都柏林移至美国。据路透社报道,这一举动意味着非洲、亚洲、澳大利亚和拉丁美洲的用户不受 GDPR 的影响。但在这个关头,Facebook 在欧洲启用了人脸识别认证,而且据反映,修改后的用户条款政策虽然强调了人脸识别技术的应用应获得用户的准许,但用户上传照片时,系统仍然会用用户默认同意的条款进行人脸识别,除非用户自己提出异议。由此看来,用户同意这一 GDPR 赋予用户的权利并未得到真正有效的实施。


在保密性方面,苹果公司向来比较重视。为应对 GDPR,苹果已更新其隐私条款并推出了新的用户页面,欧洲的用户现在可以下载苹果公司由照片、Apple Pay、联系人等服务收集的所有数据。苹果还加入了暂时停用帐户的功能。停用后,Apple 服务将停止,苹果公司还将停止其机器学习和 AI 系统使用客户数据。这些功能将在未来几个月内推广到全球的所有帐户。


谷歌也采取了行动,如 G Suite 和云服务平台的用户协议更新,完善隐私保护团队,用户可以随时迁移和删除自己的数据。按照 GDPR 的规定,谷歌改进了用户协议,不止“讲人话”,还用动画简明地告诉用户数据的用途。

据一位正在谷歌实习的受访者透露,公司领导对 GDPR 相当重视,因为毕竟有 Facebook 的前车之鉴,谷歌不想因为这些事情而损害了自己的市值和公众形象,因此会严格遵守欧盟的法律。


Twitter 在 GDPR 生效之前更新了服务条款和隐私政策,但没有清楚地说明更新的内容,只说“关注我们为您提供的有关您的个人数据的控制措施,以及 Twitter 如何公开分享您的数据”。此外,Twitter 还关闭了 Roku、Android TV 和 Xbox 版的 Twitter 应用。

另外,某知名跨国科技公司也在企业网上进行了相关的业务及项目培训。

然而,正如上文中提到的 Facebook 的做法,该法案在实施上是有一定难度的,仅仅两天之后就爆出了诉讼案。欧洲消费者权益保护组织 Noyb 将谷歌安卓系统、Facebook、Instagram、Whatsapp 四家美国公司的产品告上法庭,指控其“强迫”用户同意新的使用协议,而没有按照法律规定,让用户获得真正自由的选择权。如果指控成立,这些公司将面临巨额罚款。

国内波澜不惊

与大洋彼岸各大公司水深火热的处境不同,中国企业 一派和谐安详。至少笔者的邮箱中压根没有哪怕一封来自国内公司的隐私条例更新邮件,或弹框提醒,唯一看到的 GDPR 相关通知,来自微信公众号后台提醒。

中国大量 Web 公司掌握了海量消费者数据, 电信运营商、互联网金融、公共商用 Wifi、电商、快递等行业都收集了丰富、准确的个人信息。虽然很多人都觉得 GDPR 与我们每个人息息相关,但企业的反应却没有特别强烈。

国内科技企业云脑科技表示,GDPR 是一部具有里程碑意义的隐私保护法案,由于公司的研发方向中早就包含了 AI 的隐私保护,因此应对 GDPR 时比较从容。其 BrainSync 专利技术可以在严格保护数据隐私安全的前提下,对隐私数据进行深度学习。

怡和科技技术总监杨旸告诉 AI 前线,他所在的公司在为上述提到的大量企业客户搭建数据仓库时,每次都或多或少接触到消费者数据,包括订单、WiFi 认证、轨迹、会员积分、车辆等方面。

针对 GDPR,怡和科技采取了一些措施,如基于元数据,采用严格的开发流程来管理,开发之前,对真实数据去掉无关的个人信息,或对某些数据脱敏,在对所有字段进行含义、来源、用途、敏感度等进行标记,对所有字段产生数据字典,这样能一开始就把存有敏感数据、个人数据的字段和表,标记出来,以便伴随整个数据生命周期和随后的所有处理,随时随地可识别、可定位、向监管方或用户提供敏感字段管控报告。该公司透露,如果项目对保护个人信息、敏感信息的要求很高,一般采用传统 RDBMS,比如 SQL Server、GreenPlum 等成熟的元数据管理方法,可以很容易地处理血缘、元数据注释 / 治理等工作。这样,标注将随着元数据渗透到整个数仓流程,不会丢失,并可以一键式前向追踪或后向追踪到所有相关表、ETL JOB。

但大部分中国企业的态度更趋向另外一种:只要业务不涉欧,基本不需要采取任何应对措施。受访者不小平所在的公司就是这样,但她表示 GDPR 呈现出数据安全和数据保护的趋势需要引起重视并及早做准备。

此外,也有人认为所谓隐私和 GDPR 本身就有问题,GDPR 导致数据标注和管理流程繁复,提高企业成本。

首先是关于隐私的定义,现在人们对于隐私的定义已经与之前大有不同了。

开发者不仅需要玩转数据,而且需要考虑不同数据的特殊性,从源头开始标注,并贯穿于整个生命周期进行相应权限控制和内容管制。什么是敏感数据? 现在不敏感的数据,今后会不会被监管定为敏感?隐私这词似乎有些过度解读了。 隐私最开始真的是隐私,比如邮件、日记、衣橱、抽屉之类我们不愿意别人看到的东西。 现在,脸、名字、看过或转发过什么文章都成了隐私了。 没有 Web 之前,你的名字、脸真的是隐私吗? 退一万步来说,干脆像烟草公司那样干吧,“吸烟有害健康”。科技巨头们可以直接说“使用 APP 有可能妨碍您的隐私”。爱用不用。

其次是对于 GDPR 的“正义性”的怀疑,GDPR 似乎是一种高高在上的“政治正确”,甚至其巨额罚款究竟是保护弱者还是合法迫害都值得怀疑。

毫无疑问,每次类似监管措施总是让开发者做许多无益于用户的开发,造成开发成本大大上升,士气受挫。甚至会打击整个行业,比如网盘。 苹果 IOS 的 MAC 地址随机化会每次产生不同的 MAC 地址,保护手机主人不被 WiFi 识别。不过这真的给用户带来便利了吗? 不过,这种挑战也将催化诸如数据仓库自动化等技术的推广。 比如,基于元数据的数据治理将更加受到重视。

这是一部分企业对于隐私问题态度的真实写照,隐私界限的模糊性导致企业与用户在隐私问题上的纠纷,成本的提高让企业感到无奈甚至愤怒。

GDPR 真实影响力调研

为了解国内外互联网企业和 AI 相关技术与研究受到 GDPR 影响的真实情况,AI 前线邀请了几位在国内外企业从事大数据及AI相关工作的朋友进行调研,其中腾讯、华为的朋友由于各种原因未能接受采访。我们希望能从不同的观点中洞察 AI 业内对于 GDPR 的看法,及其影响到底有多大。文中提到的所有观点均为受访者个人观点,与所在企业无关。


由于 GDPR 对用户数据的使用和获取进行了相当严苛的规定,这些规定会阻碍大数据相关特定技术的发展吗?对于这个问题,我们看到两种了截然不同的看法。

早在 GDPR 未正式生效之前,人工智能研究领域大牛——华盛顿大学的 Pedro Domingos 教授就在推文中表示 GDPR 将使机器学习非法,引发一阵恐慌。

GDPR 将对机器学习领域产生重大影响的规定可能是“算法解释的权利”(right to explanation),即数据主体有权要求数据服务商解释机器学习进行自主决策的算法原理。但不久后一位欧盟律师,同时是牛津大学大数据、AI& 机器人学院的研究员 SandraWachter 则表示反对,她认为,GDPR 第 15 条意味着一种更加泛化的监督形式,而不是一项要求系统对某一决策原理进行解释的权利。因此,GDPR 中关于解释的权利不具有法律约束力,但公司可以自愿提供。当然,也有人不同意她的观点,认为法案中的确提到了解释权,那它就可以为用户所用,以获得知情权。

我们找到的几位受访者观点也并不完全相同:

A:我觉得短期内不会对推荐系统等技术产生影响。一方面,十几年的互联网发展已经积累了海量的数据,暂时数据是够用的。另一方面,用户也是推荐系统的受益者。等所有的用户都成为成熟的互联网公民后,他们会权衡利弊的。

B:个人认为并不会有太大影响,至少短期内不会。数据获取的难度并不在于技术层面,而在于作为用户的我们,是否意识到获取便利、效率时所付出的数据安全代价,以及意识到之后是否切实地采取防范措施。

C:对共享存储的约定,和用户数据的获取保存会有比较大的影响。在一定程度上会增加获取数据的难度,需要满足相应的条例。但是不会影响机器学习和深度学习的发展,目前深度学习,机器学习的发展目前主要是在学术界提供相应的理论和原型,工业级做相关实现的应用。

D:GDPR 的确会对工业界现有的大数据技术产生重大影响,会增大数据获取的难度。

此外,GDPR 条款让 AI 公司本就面临的 AI 黑箱(black-box problem)问题更为突出。目前,大多数 AI 公司严重依赖大数据,通过人工智能或深度学习的方法获利,而当前业界普遍认为神经网络存在黑箱问题,科技公司需要花费巨大的成本解释神经网络的工作原理。

而对于 AI 创业公司来说情况更加不容乐观,大公司可以烧钱提高成本,但创业公司没有其他的选择,只能死掉。所以说,AI 公司会面临一次严重的考验并非夸张之辞。

总的来说,GDPR 必然会提高数据获取的难度,对欧盟企业或业务涉欧比重大的企业影响较大,但对人工智能、机器学习、大数据等技术发展整体影响有限,并且有可能反过来推动新技术方法的研发。


目前 GDPR 主要在欧盟推行,非欧盟企业如果用户包括欧盟公民也会受到 GDPR 的约束,但非欧盟企业、或者业务用户不涉殴的企业仍不在少数。那么这个令企业头疼、但又令消费者安心的数据保护条例是否有可能从欧盟扩散到全球?

有人认为欧盟的 GDPR 生效之后会产生示范效应,国外政府可能会纷纷效仿,推出类似的数据保护条例,并使之成为未来的趋势;与此同时,由个人信息泄露产生的欺诈、恐吓、人身侵害等案例已经屡见不鲜,这也会使设置类似条例成为趋势。但大部分人仍认为 GDPR 推广到全球难度比较大。

有人推测,日韩有可能采取类似的措施,但短期内中美不会,因为这与互联网巨头的生存息息相关;有人认为数据保护条例并不适用于所有行业,比如涉及到公共安全的行业需要数据保护条例的规范,学术界需要另当别论,可以采用其他条例;也有人虽然同意 GDPR 可能会成为未来的趋势,但态度并不乐观,并表示上有政策,下有对策,即使全球推行了类似的数据保护条例,真正能够对保护用户隐私与数据安全起到的作用还是微乎其微的。


虽然数据、算法、计算力到底孰轻孰重至今尚无定论(估计也永远不会有),但很多人都认同数据会对 AI 产品优劣产生决定性影响。企业有能力获得更多优质的数据,做出来的产品会更加精确、体验更好,因此对于数据的争夺一直是 AI 企业竞争的重头戏。

AI 等新兴技术的发展需要依托数据,看起来似乎与隐私保护天生背道而驰。如果 GDPR 的示范效应导致其他国家效仿,互联网公司获取数据将更加困难,数据和隐私的取舍会成为更加艰难的课题。

但在中国,隐私保护的话题似乎向来不会像国外一样引发热烈讨论,李彦宏那句“中国用户愿意用隐私换便利”虽然触发众怒,但仔细想来也真实地反映了中国网络用户的隐私保护现状,时常响起的骚扰推销电话铃声就是最直观的证明。

由于中国的隐私数据保护水平较低,如果中外在隐私上分道扬镳的话,是否会让中国在这次浪潮中获得数据方面的优势,从而有利于 AI 等行业的发展呢?

对于这个问题,我们在采访中得到了两类比较有趣的回答。

其中一种观点认为,如果中外在隐私问题上分道扬镳,把数据保护起来,一定程度上有数据的企业会具有一定优势,我国的互联网、大数据、视频等行业的迅猛发展就是个例子,但会对没有数据的公司造成阻碍,所有开发者和运营者,都不应该为了追求商业利益而钻这些空子,靠耍小聪明终究成不了大事。有人表示,中国隐私数据保护水平低是由于中国当今网民群体中中产阶级还不是主力,在中国成为发达国家之前,大部分网民不会拥有太强的隐私意识。

另一种观点则是,中国法律对于隐私保护越来越重视,如 2017 年 6 月 1 日生效的《中华人民共和国网络安全法》(下称《网安法》)和与之配套的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,对倒卖个人信息数据的惩罚已经入刑,非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息 50 条以上的即入罪。因此,中国并不会因此而在数据方面获得优势。

然而,据笔者对后一种观点中提到的中国网络领域的基础性法律《网络安全法》进行解读,不难发现这部法律实际上重点保护的是国家的信息安全,而对于个人隐私的关注几乎为零。整个法令中,仅仅提及了两次“隐私”字样,这与 GDPR 中详尽的规定简直是天上人间。

宽松甚至几乎不存在的隐私数据法律条例,必然会在一大段时间里给中国企业带来大量的数据福利。

另一种思路:用技术手段解决隐私问题

GDPR 生效以后这段时间我们也看到了,虽然动静不小,但是依靠政策监管推动有不小的局限性,如不同的国家和地区隐私政策不一而同,让类似法案的推行步履维艰;又如某些公司直接采取如屏蔽欧盟用户的做法,几大新闻网站至今未向欧洲用户开放。

只要公司动点歪脑筋,类似于修改用户政策的措施一定程度上就形同虚设,无法保障用户的隐私。从长远来看,这对企业和用户都不利,最终损害用户的利益。

我们还需要探讨真正解决用户隐私问题的更好的办法。那么,我们有可能使用技术手段解决这个问题吗?

云脑科技的 BrainSync 技术或许是其中一种可行的方法。云脑科技于 2015 年开始研发 BrainSync 技术技术,通过这项技术可以在严格保护数据隐私安全的前提下,对隐私数据进行深度学习。

云脑科技表示:“GDPR 的确会对工业界现有的大数据技术产生重大影响,增大数据获取的难度。但是退一步想想,一定需要把用户的个人数据获取到服务器上才能使用 AI 技术提升用户体验吗?答案是否定的。GDPR 其实对机器学习和深度学习是一个巨大的推进力。“

GDPR:中国互联网技术弯道超车的最大机会_java_02

BrainSync 向 AI 前线介绍了这项技术的具体工作原理:

a)  首先 隐私数据不离开个人设备,在设备上进行学习,避免了数据的直接泄露与滥用风险。

b)  其次,深度学习如果不在 算法层面进行保护,得到的模型很可能会被 membership inference attack(成员推断攻击)破解参与训练的原始数据,也就是隐私数据。

c)  学术界提出了差分隐私的定义,给出了隐私保护的量化工具。BrainSync 实现了 差分隐私保护,使得移除任一条训练数据后得到的模型都比较接近,从而防范了 membership inference attack。

另一方面,云脑通过 对算法进行低比特化处理,优化收敛速度,针对终端硬件进行指令级别优化,对训练过程进行智能调度,从而使用户终端设备的算力和功耗不再是瓶颈。

在小规模的训练调整中,以上做法或许可以保证训练的效果,但是让 AI 前线疑惑的是,在需要大量数据的基础模型训练上,也可以在用户终端完成吗?效果会不会大打折扣?

对此,云脑科技也给出了解释:

a)  BrainSync 有 端云协同版本,能够融合上亿个个性化模型形成一个反映群体智慧的基础模型。融合的算法过程也实现了差分隐私保护,使得基础模型也不会泄露隐私数据。

b)  在实验中,通过此技术得到的基础模型 在冷启动的场景下甚至超过了把所有数据集中起来学习得到的模型

最后,云脑科技还提供了另外一种解决隐私安全的技术思路,如同态加密,可以和 BrainSync 形成补充,进一步增强在终端上的数据安全。但是,对算力的要求和对深度学习精度的影响还需要更深入的研究。

说到底,发展技术一定要牺牲隐私吗?

引用杨旸在采访中告诉 AI 前线的这段话作为结尾:

人们感觉不舒服的,往往是能追踪到自己的信息被陌生人利用,进行侵害。但个人认为,如果为了避免侵害,而采用过于严格的惩罚措施,效果不一定好。 政府、公安、运营商、酒店、认证机构、和委托的第三方都拥有大量个人信息和个人行为信息。到底泄露来自于 AI、区块链等公司,还是这些企事业,很难界定。

因此,还是和烟草一样,既然无法避免,只能告知和处罚。 对于需要使用隐私信息的企事业,应大大方方地告知用户,不要藏着掖着。对于非法窃取信息的行为,就要追查企业的数据保护机制。如果没有合理的权限管理、数据对象管理和信息安全手段,则应追究适当的连带责任。

技术本身不应该因为潜在的滥用恶果,而裹足不前。 科学家不应该对核能的破坏潜力负责,生物学家不应该对基因改造项目是否合情合法负责,因此开发者也不应该对本身就没有明确是非定论的数据伦理负责。