导读:

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算技术是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术体系,它涉及密码学、分布式计算、人工智能、数据科学等众多领域。与传统数据的使用方式相比,隐私计算更专注于数据使用过程和计算结果的保护,其目标是在保证数据安全的前提下实现数据价值最大化。

隐私计算概念和技术体系_区块链

隐私计算的概念

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统[1]。隐私计算技术是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术体系,它涉及密码学、分布式计算、人工智能、数据科学等众多领域。与传统数据的使用方式相比,隐私计算更专注于数据使用过程和计算结果的保护,其目标是在保证数据安全的前提下实现数据价值最大化。

隐私计算概念和技术体系_python_02

隐私计算是一个系统工程技术,来源于当代密码学、数学、硬件等多个领域。主要包括多方安全计算、同态加密、可信执行环境、联邦学习等技术,此外也包括差分隐私、零知识证明、图联邦等技术。结合图1所示,分别简要说明隐私计算中同态加密、多方安全计算、联邦学习和可信执行环境的发展历史和标志性事件。

1) 同态加密技术 

1978 年 Ron Rivest、Leonard Adleman 和 Michael L. Dertouzos 提出同态 加密问题,并在同年提出满足乘法同态的 RSA 算法。在此之前,密码学更多的研究 数据在存储和传输过程中的静态安全,而同态加密问题的提出将加密技术的研究从 静态引向动态,是理论上的巨大革新,也开创了隐私计算的先河。2009 年,Gentry 提出了首个实用的全同态加密算法,标志着全同态计算时代的开始。2017 年,国际 同态加密标准委员会成立,标志着同态加密在全球进入高速发展阶段。 

2) 多方安全计算技术

1981年,Rabin首次提出通过ObliviousTransfer(OT)协议实现机密信息交互,奠定多方安全计算理论基础。1982年,姚期智教授在1981年OT协议信息交互基础上,在他的论文《ProtocolsforSecureComputations》中提出“百万富翁问题“,即两个百万富翁在没有可信第三方、不透露自己财产状况的情况下,如何比较谁更富有,这标志着多方安全计算技术的产生。1986年,姚期智教授提出混淆电路技术,实现了第一个多方(两方)安全计算方案。1987年,Goldreich等人提出了基于电路的秘密共享方案GMW,并将其应用于多方安全计算。

3)联邦学习技术

1996年Cheung首次提出在分布式数据库中,实现关联规则(AssociationRules)挖掘,奠定联邦学习的一些基础概念。2013年,王爽教授团队在SCI学术期刊JournalofBiomedicalInformatics发表的《ExpectationPropagationLogisticRegression(EXPLORER):Distributedprivacy-preservingonlinemodellearning》论文中提出了数据“可用不可见”问题。2017年谷歌在官方博客中发文,提出了联邦学习在移动端的应用。2018年,杨强教授团队提出安全联邦迁移,并于2020发表了安全联邦迁移学习论文,结合联邦学习和迁移学习并发布FATE开源系统。

4)可信执行环境

2006年,OMTP工作组率先提出一种双系统解决方案:即在同一个智能终端下,除多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离硬件之上的隔离安全操作系统用来专门处理敏感信息以保证信息安全,该方案是可信执行环境的前身。可信执行环境(TrustedExecutionEnvironment,TEE),也被称为机密计算(ConfidentialComputing)。2011年,GlobalPlatform(全球最主要的智能卡多应用管理规范组织,简称为GP)开始起草制定相关的TEE规范标准,并联合一些公司共同开发基于GPTEE标准的可信操作系统。2015年Intel发布支持TEE的CPU,2016年IntelTEE技术和联邦学习结合极大推进了TEE技术在隐私安全方面的应用,近年来国内厂家先后发布基于TEE的隐私计算解决方案,已经在商业应用中被广泛使用。

目前,隐私计算概念已经被业界广泛接受,开始被应用到多个实际商业系统中。同时,硬件、软件、算法领域都在不断进行研究改进,以满足日益增长的业务需求。

隐私计算的技术体系

目前业内采用的主流隐私计算技术包括三类:多方安全计算、联邦学习和可信执行环境。

多方安全计算

多方安全计算(SecureMulti-PartyComputation,MPC)由姚期智教授于1982年提出,主要探讨在不泄露隐私的条件下,各参与方利用隐私数据参与保密计算,共同完成某项计算任务。多方安全计算是密码学的重要分支之一,目前主要用于解决各个互不信任的参与方之间的数据隐私和安全保护的协同计算问题,以实现在不泄露原始数据的条件下为数据需求方提供安全的多方计算。

多方安全计算包括多个技术分支,主要包括秘密分享、不经意传输、混淆电路、同态加密、零知识证明等。

1)秘密分享

秘密分享(SecretSharing)由著名密码学家Shamir和Blakley于1979年分别提出,是现代密码学的重要分支。直观的讲,秘密分享是指将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与方管理,每个参与方持有其中的一份,协作完成计算任务(如加法和乘法计算)。单个参与方只拥有部分的秘密值,有且仅当足够数量的秘密值组合在一起时,才能够重新构造被共享的秘密。在秘密共享系统中,攻击者必须同时获得一定数量的秘密碎片才能获得密钥,系统的安全性得以保障;另一方面,当某些秘密碎片丢失或被毁时,利用其它的秘密份额仍能够获得秘密信息,系统的可靠性得以保障。

2)同态加密

同态加密(HomomorphicEncryption,HE)是一种通过对相关密文进行有效操作(不需获知解密秘钥),从而允许在加密内容上进行特定代数运算的加密方法[5]。其特点是允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致。在多方安全计算场景下,参与者将数据加密后发送给统一的计算服务器,服务器直接使用密文进行计算,并将计算结果的密文发送给指定的结果方。结果方再将对应的密文进行解密后,得出最终的结果。

3)不经意传输

不经意传输(ObliviousTransfer,OT)是由Rabin在1981年提出的一种保护隐私的两方计算协议。后被拓展为多方计算协议。根据协议,每次发送方发送多条信息,接收方只能获得自己想要的一条信息。协议使得接收方除选取的内容外,无法获取剩余数据,并且发送方也无从知道被选取的内容。不经意传输对双方信息的保护可用于数据隐私求交等场景。通过不经意传输,参与双方不能获取到对方的任何数据信息,结果方仅仅只可以获取到交集数据。不经意传输技术常常应用于隐私信息检索(PrivateInformationRetrieval,PIR),也称为匿踪查询等业务中。

4)混淆电路

混淆电路(GarbledCircuit,GC)是姚期智教授提出的多方安全计算概念,其思想是通过布尔电路的观点构造安全函数计算,使得参与方可以针对某个数值来计算答案,而不需要知道它们在计算式中输入的具体数字。GC的多方共同计算是通过电路的方式进行的,加法电路、比较电路、乘法电路等,所以相关技术称为混淆电路。

混淆电路可以看成一种基于不经意传输的两方安全计算协议,它能够在不依赖第三方的前提下,允许两个互不信任方在各自私有输入上对任何函数进行求值。其中心思想是将计算电路分解为产生阶段和求和阶段,两个参与方各自负责一个阶段,而在每一阶段中电路都被加密处理,所以任何一方都不能从其他方获取信息,但仍然可以根据电路获取结果。

5)零知识证明

零知识证明(Zero-KnowledgeProof,ZKP)指的是证明者能够在不向监控者提供任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明实际上是一种涉及双方或更多方的协议,即双方或更多方完成一项任务需要采取的一系列步骤。证明者需要向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不向验证者泄露任何关于被证明消息的信息。

联邦学习

按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、 纵向联邦学习与联邦迁移学习。

隐私计算概念和技术体系_编程语言_03

1)纵向联邦学习

纵向联邦学习对应各个联邦成员提供的数据集样本有较大的交集,特征具有互补性的情形。纵向联邦学习中,模型参数分别存放于对应的联邦成员内,并通过联邦梯度下降等技术进行优化。纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业/跨机构的数据联合建模,如银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。

2)横向联邦学习

当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习。横向联邦学习的目的是要利用分布于各方的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。

3)联邦迁移学习

横向联邦学习和纵向联邦学习要求所有的参与方具有相同的特征空间或样本空间,从而建立起一个有效的共享机器学习模型。当参与方数据不满足上述需具有相同的特征空间或样本空间条件时,联邦学习可以结合迁移学习技术,使其可以应用于更广泛的业务。这种组合称为联邦迁移学习。

可信执行环境

1)可信执行环境技术介绍

可信执行环境是计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。其目标是确保一个任务按照预期执行,保证初始状态和运行时状态的机密性、完整性。

隐私计算概念和技术体系_python_04

2) 可信执行环境主流技术方案及产品

(1) 国外可信执行环境相关产品 

ARM、Intel 和 AMD 公司分别于 2006、2015 和 2016 年各自提出了硬件虚拟 化技术 TrustZone、Intel SGX 和 AMD SEV 及其相关实现方案,也是目前社区和生 态较为成熟的几类方案。

(2) 国内可信执行环境相关产品 

中关村可信计算产业联盟 2016 年发布了 TPCM 可信平台控制模块,为国产化 可信执行环境 TEE 技术的发展起到了指导作用。国内的 CPU 芯片厂商海光、飞腾、 兆芯、鲲鹏分别推出了支持可信执行环境的技术 Hygon-CSV、飞腾 TrustZone、 ZX-TCT 和鲲鹏 TrustZone。

3) 目前主流 TEE 技术对比 

目前,以 Intel SGX 和 ARM TrustZone 为基础的 TEE 技术起步较早,社区和 生态都已比较成熟。但国产化的芯片厂商在 TEE 方向上已经开始发力,形成我国自 主可控的完整社区和生态指日可待。

隐私计算概念和技术体系_python_05

隐私计算概念和技术体系_区块链_06

其它隐私计算技术 

1) 差分隐私 

差分隐私(Differential Privacy,DP)是 Dwork 在 2006 年针对统计数据库的 隐私泄露问题提出的一种新的隐私保护方法定义[9],主要原理是通过在统计结果中加 入随机噪声来避免由于数据变化导致的结果差异而泄露数据中的个人隐私信息。差 分隐私通过引入扰动或噪声实现对于数据隐私的保护,可以用在对联邦建模的过程 中或者建模结果加入噪声,保证攻击者难以从建模过程中交换的统计信息或者建模 的结果反推出敏感的样本信息。

2) 图联邦 

图联邦(Graph Federated Learning)是一类将新型的联邦学习技术与图计算 技术相结合的安全建模方法,用于多方机构联合在不暴露各自图数据隐私的情况构 建诸如图神经网络(Graph Neural Network,GNN)、谱聚类(Spectral Clustering, SC)等图模型。根据应用场景的不同,现有图联邦算法主要分为非关联图联邦、横 向关联图联邦、纵向关联图联邦以及节点关联图联邦。

隐私计算概念和技术体系_编程语言_07

互联互通社区

互联互通社区-IT智库,是互联互通社区IT架构、前沿技术平台。包含科技趋势、总体架构、产业架构、技术架构、系统架构、业务架构等内容,内容简练,皆属干货

隐私计算概念和技术体系_编程语言_08