我们应该如何制定大数据、AI的伦理边界？

转载

DataCastle数据城堡 2021-07-27 13:32:58

我们应该如何制定大数据、AI的伦理边界？_AI

大数据及AI领域出现的各种颠覆性创新，让这个时代体验到了前所未有的便利，同时也加剧了人们对未来智能化世界的忧思。

早到1921年恰佩克的著作《罗素姆万能机器人》出版，再到《西部世界》、《机械姬》、《黑客帝国》、《终结者》等影视剧热映，以及照应进现实生活中大数据杀熟、隐私泄露、不良内容推荐等问题的层出不穷，新技术的诞生可以解放人类劳动力，但也有可能损害人类的利益，这让我们有必要对大数据及AI的伦理问题重新审视。

一场以“志愿、年青、科技、团聚”为主题的2050大会正在杭州云栖小镇召开，上万名因科技而团聚的“年青人”在云栖小镇，进行着一次别开生面的约会。这其中，就有周涛和他学术界的伙伴们，以《大数据与人工智能的伦理挑战》为题，反思着大数据的价值预设、伦理导向；研讨着人工智能无节制时的潜在风险；探寻着对于新技术而言更具针对性的价值引导、伦理调节与风险规制。

我们应该如何制定大数据、AI的伦理边界？_AI_02

28日上午，在这场以周涛为召集人的讨论会中，四川大学法学院教授王竹、中国人民大学信息学院教授孟小峰、清华大学社科学院社会学系与公共管理学院合聘教授罗家德、华扬联众数字技术有限公司CTO及首席科学家章骏、腾讯研究院高级研究员曹建峰、36氪平台内容部主编张薇分别从司法大数据、数据生态、社会危机、数据挖掘、数据时代、性别偏见角度分享了自己的见解。

《司法大数据与人工智能的伦理挑战》

王竹：从个案正义追求社会整体的司法公正

我们应该如何制定大数据、AI的伦理边界？_AI_03

随着我国司法体系全面优化改革加上民众法律意识的增强，司法案件数逐年增多，法官职业压力大，法官队伍逐渐出现了女性化的转向。“甚至有律师告诉我，在一整年的法院庭审中，他没有遇到过一位男法官。社会上有一种直观的感觉是，女法官在量刑时会相对较重。我个人觉得这可能和女性法官人数相对较多，使得民众感觉量刑较重的案件都是女法官做出的裁判有关。这个还需要进一步的量化研究，而量刑的轻重实际上涉及的因素很多，不能仅仅归结于性别因素。”

对于司法人工智能算法的训练而言，需要将数以千万份的裁判文书作为数据集进行训练。“这个训练暗含一个前提，就是法官做出判决的时候，必须符合规范性、准确性和妥当性。如果没有80%或者90%以上正确性的话，裁判文书本身就不具备正当性，就无法提供正确的人工智能训练数据集基础。所以在这之前，我们要先追求个案的正义，再通过个案正义追求整个社会的司法公正，当然这将是革命性的改变。

《人工智能时代的数据生态：隐私、透明与公平》

孟小峰：1%的人截取了94%的数据

我们应该如何制定大数据、AI的伦理边界？_AI_04

数据以万物互联这样新的方式出现，使得数据无处不在，形成了数据生态。在孟小峰看来，数据是物质和精神的衍生物，数据的伦理问题急需解决，它包括了个人隐私、国家安全，以及包括了数据的垄断和共享问题，它的核心是数据垄断。

“我们去年做了个中国隐私风险指数分析，从一个互联网公司获得了大量用户使用手机APP的数据。我想揭示的是，在当下大规模数据收集状况下，10%的数据收集者获取了当下99%的数据。而在现实世界里财富分配比例符合二八原则，在虚拟世界，如果把数据比为财富的话，虚拟世界残酷性要比现实世界超出很多，我们得出的结论是1%的人已经截取了94%的数据。”从这里可以看到，数据垄断成为当下非常严重的问题，随后孟老师表示“建立数据透明的治理体系”将会是解决该问题的关键。

《大数据时代的社会危机》

罗家德：AI灾难电影与科幻有关，与科学无关

我们应该如何制定大数据、AI的伦理边界？_AI_05

90年代，互联网刚刚兴起，一大堆预言家认为“城市会消失”；如今，在大数据及人工智能时代来临的岁月中，又出现了“50%的职业岗位要消失”、“机器人将取代人类”，以及一些抓人眼球AI灾难片的预言。

在历史长河中，预言的出现是因为发生了变革，而面对变革人们总有办法前进。罗家德从社会演变的角度讲解了他的看法“140年前50%的农民失业了，后来变成了工人。60年前，50%的工人又失业了，后来变成了服务业者。如果预言是真的，未来还有50%的朋友要失业。但是，50%的工种消失，就有50%的新工种出现，我们要做的仅仅是保持自己的竞争力。”

大体来说，人工智能的未来是美好的，也许我们会有数个任意支配的AI和大数据工具，做消费的时候，它帮我们收资料、做分析；工作的时候，它帮我们适配擅长方向，寻找可能性。

《用户数据挖掘的伦理影响》

章骏：‘Do No Harm’

我们应该如何制定大数据、AI的伦理边界？_AI_06

历史发展到今天，很大程度上得益于移动通信和移动互联网，大数据时代才出现了。真正的大数据一定是动态数据、是行为数据。用户数据的挖掘，在今天早已司空见惯。而依然有重要意义让我们进行讨论的，是“挖掘”行为带来的影响。好的方面毋庸置疑，比如地图导航应用，通过用户数据的挖掘，在“路”的信息基础上，把“Traffic”的利益挖掘出来了。

再比如医学方面，群体信息的挖掘，将从前需要大量临床学习、形成个人经验、再转变为医生能力的漫长过程缩短，帮助医患双方都能获得更好的体验。但是，如果没有制衡，用户数据挖掘的负面影响将会相当巨大——网络诈骗、垃圾邮件、操纵选举、金融借贷等诸多方面都会引发危机。

总的来说，对于用户的数据挖掘，应聚焦于“群体信息”，而非“个人信息”。这一点，通过从欧洲、美国、中国三个区域的数据隐私保护程度和数字经济发达程度的对比中也得到了印证。当我们走到今天的大数据时代，数据的利用是无可避免的趋势，那么我们要思考的，就是如何更好地保护数据、保护隐私、不作恶（Do No Harm)。

《智能时代的技术伦理思考》

曹建峰：算法是人类价值观最核心的体现

我们应该如何制定大数据、AI的伦理边界？_AI_07

2008年的时候，业界有很多人开始担心信息过载，当时更多聚焦信息伦理；而到了2016年人工智能兴起后，大家担心的是，算法做出的决策可能会影响到人类的自由、影响到公平等等，开始转变关注算法伦理。所以，对于数据和算法，我们从前更多关注的是“效率”的一面，到了今天，我们需要关注到“伦理”的一面，怎么防止其负面影响并促成科技向善。

因此，正如我们在工业时代的环境保护意识一样，如今我们需要一种数字环保意识，也就是数据和算法伦理意识。如果缺少这种前置的意识，新技术的应用可能给个人和社会带来负面影响，比如，算法可能带来信息茧房、不公正，可能会被滥用，规模化“作恶”，甚至通过机器学习把一些偏见固化、放大，而由于技术自身的特征导致危害更为隐蔽而不易察觉。之前有人说算法没有价值观，但事实告诉我们，算法是人类价值观最核心的体现，只有秉承正确的价值观，放大技术的正向价值和社会效益，才能在追求经济利益的同时，实现科技向善。

“未来20年的故事一定是人工智能算法和大数据的故事，而这个故事将取决于如何划定效用和威胁之间的界限以及由谁来划定，从而塑造一个人类和机器美好共存的未来。”

《我们是有性别偏见的，而AI正在学习它？》

张薇：偏见进、偏见出？我们应正视它，进而抵御它。

我们应该如何制定大数据、AI的伦理边界？_AI_08