科技云报道原创。
随着移动医疗、AI医疗影像、电子病历等医疗数字化程度的加深,如今医疗数据被泄露已成家常便饭。
在理想状态下,医疗数字化是解决世界范围内医疗资源分配效率低下的最好方法。
通过移动化、AI等新技术,医患之间可以实现远程沟通,不仅节省了就医成本,同时更让医疗资源得到了均衡配置,即使医疗资源过于集中在一线城市,那些生活在三四线和乡、镇、村的人们也能通过这种方式获得更好的医疗服务。
但每个硬币都有两面。
当人们在享受互联网医疗带来的巨大便利同时,却未曾考虑过它的阴暗面,那就是个人医疗健康数据泄露。由于云端配置错误,美国一家为患者提供家庭医疗服务的企业Patient Home Monitoring保存在亚马逊S3服务器中的47GB的医疗数据意外泄露,预计至少有15万患者受影响。
这些泄露的数据包括患者的血液测试结果、个人信息,如患者的姓名、家庭住址、医生信息以及病例管理记录等。
在中国,医疗机构大都各自为政,即便是一个医院内部也很难做到信息共享。目前市场上各类移动医疗APP沉淀着大量个人医疗数据,很多用户只看到了这些产品的工具属性或平台属性,却没人在意这些数据最终流向哪里,或被用到何处,信息共享和个人隐私的博弈始终在进行。
医疗大数据的“棱镜”如何窥测隐私?
卡内基梅隆大学Latanya Sweeney教授曾发表过一个《简单的人口统计往往能识别出人的独特性》报告,其指出:少数特征的组合常常结合在一起即可唯一地识别某些个体。
在基于美国选举人公共注册信息的基础上,87%的美国人基于邮编、性别、出生日期即有可能被识别出个人身份;
53%的美国人通过地点、性别、出生日期可能被识别出个人身份;在县一级,18%的美国人通过县、性别、出生日期可能被识别出个人身份。
显然,包括上述个人信息的数据字段是不应该被公开的,因为这有可能泄露个人隐私。比如:该研究曾使用麻省总医院的出院数据和选举投票的注册数据进行匹配,最终链接出某麻省议员的住院信息。
健康医疗大数据在全球快速发展,越来越多的个人数据被“脱敏”后公开,用于精准医学等各类大数据研究。然而,如上所述的健康医疗数据被公开或将引出一系列隐私安全问题。
脱敏后分享,隐私就会安全吗?健康医疗大数据时代,大量医疗数据被源源不断采集。人们往往认为,一组医疗数据把名字、身份证信息去掉后就安全了,可以公开使用。
然而,当这组数据跟另一组数据连在一起时,可能会完全暴露个人隐私。如果加入基因数据,隐私安全威胁就会更明显。
随着基因检测技术发展,只需大概75个统计上独立的SNP位点即可唯一确定一个人,所以说基因数据比指纹数据更敏感。
当基因检测数据与一些病理数据相遇时很容易匹配到具体个人,这种确认可能会侵犯人类隐私。
2013年,英国曾推出一个Care.data计划,将有关病人的数据采集、汇总,进行共享和使用,但是实施不过3年,2016年7月份,该项目被关停,更多的原因则是隐私方面的问题没有做得很好。
首先,对数据的保密性关注不够,比如,对个人隐私进行匿名化和脱敏处理之后,该系统和其他系统关联后,依然可以通过数据挖掘的方式辨别有关病人。
其次,项目里没有界定数据开放共享的用处。最后,采集病人的数据信息时,并未征得患者的同意。
今年年初,比雷埃夫斯大学研究人员对安卓生态中20款最受欢迎的医疗、健康类产品进行了调研,得出的结论是80%的产品涉嫌擅自传播用户数据。
这些产品中有50%都和第三方共享用户文本、多媒体甚至医疗影像方面的数据。而且有20%的应用没有推出包含隐私问题的用户须知文件。
隐私数据如何突破“棱镜”困扰?
健康医疗大数据的巨大潜力吸引无数医疗机构、科研团体积极探索,一边是数据带来的隐私安全“黑洞”,一边是精准医学打开的未来医疗世界大门,隐私安全保护与数据公开应用能否兼得?以下一些技术可以在医疗数据化过程中加以应用。
去中心化的分布式分析:如果多个医疗机构想联合进行医疗或者基因数据的某些分析,其实是不需要直接交换个体数据,而是通过交换统计值就能得到想要的结果。
通过分享统计值,就可以有效降低数据分享过程中的隐私风险。
比如学习一个模型需要看某些参数,这些参数代表疾病的高风险性与年龄、性别或其它特征的关系,我们可以把从每个医疗机构内部个体数据得到的统计值整合成一个全局的模型参数,然后把对应的模型分享给研究人员,但训练模型的原始数据并不需要被分享给其他医疗机构或研究人员。
差分隐私:如果只是做一些前期探索性研究,研究者并不需要原始数据,只需要跟原始
数据相似的数据信息即可。
因此,可以在原始的数据上添加噪音,或者先在原始数据上拟合出一个分布来,然后在这个分布的空间里面再抽象出数据来。
这个数据会跟原始数据很相像,但是没有任何点能够对应到原始数据上。这样,研究人员可以使用这种数据去做研究,但是无从得知数据本来属于谁。
同态加密:如果是基于公有云做数据运算,为提高安全等级可以选择同态加密。
同态加密是级别非常高的一项加密手段,通过同态加密可以在加密数据上做加密运算,得到的结果也是加密的,只有授权的用户才能把加密的结果拿到。这样就能既能让用户放心使用公有云资源,又能保护个人隐私等数据安全。
硬件加密:利用英特尔第六代之后的芯片的一个加密区域,让只有授权的用户才可以访问。所有数据在硬件外都是加密的,非授权用户看不到。
目前,在圣地亚哥Rady儿童医院、伦敦帝国学院、新加坡基因研究所三国联合开展的川崎病研究项目中,由于三个国家对于基因数据隐私保护的要求不同,项目数据传输与分析是通过硬件加密的方式来实现的。
未来,医疗将是全民主动参与的时代,每个人都是数据的提供者、使用者和受益者,因此更需要用户主动提升隐私安全保护意识,方可更加有效的保护自己。
与此同时,在医疗数据保护方面,政府也要进一步加强相关数据安全法律建设,企业则要积极进行细分领域的科技创新,只有多方共同努力,才能真正实现我的隐私我做主。
【科技云报道原创】
微信公众账号:科技云报道