我不是数据科学家,但我仍然关心数据科学中的伦理。我关心它,就像我关心公民权益一样:我不是律师,也不是立法者,但法律影响着我的生活,在某种程度上,我想要充分了解它,以便我知道如何有效地驾驭保障自身权益。作为数据公民,会受到数据科学家创建的模型、方法和算法的影响;反之公众对这些模型、方法和算法的影响却很有限。
作为新一代的数据公民,由于你的大多数信息都被巨头们获取了,购物、支付、旅游、健康等等数据,你的生活工作一举一动都已经被数据化了,如何保证这些数据会被合理且符合道德规范的处理?
数据科学伦理是一个新兴的领域,需要重新创建基础的工具和方法来从头开始构建这个领域。然而,我们可以利用现有领域中的一些概念框架来类比。具体来说,在本例中通过公民概念,来创建一些需要在数据伦理中构建的新工具、方法、流程和过程。
”法律”和“数据科学”都是界限和层次不确定的概念。本文中将假设它们是一个单独的东西,而不是由不同部分组成的组合。
图1
在公民生活中,公民有影响立法者和律师决定的机制。与许多其他制度一样,这些制度并不完善,反映了不平等的社会权力结构,但这些机制确实存在。在公民生活中,我们可以为我们认为最能代表我们对如何制定和执行法律的观点的政党和个人投票和竞选。我们可以请愿和游说,让人们听到我们的观点。当所有这些都失败时,我们可以抗议,有时也可以通过调查和诉讼寻求赔偿(作者非天朝人士,观点仅供参考)。
在数据公民的世界中,这些机制远比现实中类比的对象更糟更不完善。由于许多数据科学成果都是专有知识,对于大众来说很难发现其中是否存在偏见。例如,针对人员招聘方面的大规模的研究算法可能会无意中导致歧视与贫困的恶性循环;再比如,针对犯罪风险评估方面的算法,在风险评估方面准确率比较低,但在分辨人的种族方面特别突出;还有翻译类算法,可能会不经意间突出性别特征或印象,导致性别歧视。
当然,这些都是已经被公开发现和调查过的真实案例,但还有许多例子没有引起注意或没有受到批判和质疑。凯茜·奥尼尔(Cathy O'Neil)在她的《数学毁灭武器》(Weapons of Math Destruction)一书中描述了一个年轻人,在面试时由于一项常见的性格测试,他总是被雇主拒绝。奥尼尔指出,这些测试会因为应聘者不合适而将他们拒之门外,但他们从来没有考虑过关于被拒者是否在其他地方表现良好的可能性或反馈,这意味着没有真实的证据表明这些测试是否有效。幸运的是,这个年轻人的父亲有一位律师,他在招聘中对这些性格测试提出了质疑。通过发掘一个不公平的例子,这位律师能够推动每个人得到更平等、更合理的待遇。但问题在于,要认识到这一反复出现的“未能通过性格测试“是一种歧视并且拿出相应的证据,并不是一个简单的事情,而且并不是所有人都具备这样的专业知识。
在《数学毁灭武器》出版后不久,奥尼尔在播客中声明,算法“等同于一种法律”,它们可以被视为“数字算法法律”。“与真实法律不同,受其影响的普通人无法看到这些算法是如何运作的。
即使弄清楚它是如何运作的,普通人也没有办法质疑这些算法是如何对他们进行分类的,同样也无法质疑这些算法对他们做出的预测。奥尼尔认为,作为数据公民,我们都应该拥有合法的权益来保证这些数据不会被滥用,基于这些数据的算法是公平的。这和法律是一样的,必须是符合宪法的。我们应该被允许知道规则是什么样的。
对于判决、雇佣以及其他各个方面的各种有偏见的算法,奥尼尔指出:“机器学习算法不会问‘为什么’,它只是寻找模式并重复它们;假设有一个不完善的系统,我们把它自动化,实际上意味着在重复过去的错误。“仅仅因为一个系统是基于数据或数学算法的,并不会自动使它变得更公平。通常数据科学家认为系统化的结果更客观。但事实并非如此。
这种三角模式下的角色实际上会重叠,比如立法者也是公民;数据科学家也可能被错误的算法分类。正是基于这些角色发生冲突的地方,对于数据科学开发伦理实践才可能有好的理解与可能性。
奥尼尔指出,“数据科学家在工作中必须做出道德决定。帮助数据科学家认识到这一责任,也许可以通过他们作为数据公民而受到不合理的自动决策影响作为开端,这一点对于数据公民与数据科学之间的博弈至关重要。
那么如何才能推动更有效、更公平的“数据科学”?第一步可能是坚持数据科学中道德实践的透明度,与律师和立法者的透明度相同。GDPR(通用数据保护条例)在一定程度上推动了数据公民权利的法典化,并在数据公民权利受到侵犯时惩罚相关组织。具体到数据科学,有四个关键的条款脱颖而出:
-
第一,查阅数据的权利,即数据所有人有权了解有关他们的个人资料是如何及为什么目的被处理的权利,以及取得该数据副本的权利。
-
第二,删除的权利,数据所有人可以要求删除他们的数据,不再与第三方共享。
-
第三,数据可移植性,即数据所有人可以要求将其数据转移到另一个处理设备。
-
最后,隐私与保密设计不再是一个简单的行业认可的概念,而是一项法律要求,专注于使用最少的数据来履行某些职责。
这些权利将影响数据科学家如何设计模型。在构建数据科学工具时,当数据可能因为人们要求删除数据而发生变化时,或者在创建模型时使用了最少的数据量时,这些新的因素将会被整体考虑并发挥作用,一定程度上可以缓解数据被滥用以及算法歧视。
除了GDPR之外,数据科学界也有许多尝试将管理伦理考虑的方法编成法典并付诸实施的案例。开放数据研究所(Open Data Institute)的数据伦理画布是一个例子,Gov.uk的数据科学伦理框架是另一个例子,公共科学图书馆(Public Library of science)的“负责任的大数据研究的十条简单规则”是第三个例子。
凯茜•奥尼尔(CathyO 'Neil)的ORCAA等咨询服务公司现在提供算法审计服务,微软(Microsoft)和Facebook等大型科技公司也在开发审计工具包。埃森哲推出了公平工具原型的公司,该工具旨在识别和修正算法中的偏见。
然而,埃森哲(Accenture)全球伦理人工智能主管鲁曼•乔杜里(Rumman Chowdhury)表示,要让这个工具真正发挥作用,公司还需要一种伦理文化;否则,忽视工具的建议,继续推行有偏见的做法,实在是太容易了。
大多数人都不是数据科学家,无法数据科学和模型算法使用哪些代码库或如何对某个变量加权,我们不是那些能做出道德权衡的人。在开发模型算法时,我们无法影响数据科学家去选择应当包含哪些信息,以及必须删除哪些信息。作为普通大众,我们能做的是让自己了解出了什么问题,为什么会出问题,以及如何让事情向好的方向发展。
我们应当关注并警惕,我们的数据在哪里被使用,它们是如何做出对我们利益攸关的决策。但是有些人同时兼任这两种角色——数据科学家,他们能够理解在特定领域所做的道德决策可能如何影响自己、家人和朋友,最直接的影响是使用他们服务的数据公民。作为这些系统的构建者,数据科学家有责任正确并合理地使用数据。
与之前的其他伦理运动一样,比如寻求更大的环境保护或更公平的工作条件,大规模地宣传这一点将需要大量的游说和宣传。幸运的是,像doteveryone和Coed:Ethics这样的团体正在迎接挑战,向政府和数据科技公司们施压,要求它们创建一个更加公平的算法世界。
原文作者:Dr. Caitlin EMcDonald 译者:江玮