问题模型及定义

注意:密码学方法保证的是计算过程的隐私性,差分隐私保证的是计算结果的隐私性。

差分隐私的核心是保护个人数据的隐私,而不是保护群体数据的隐私

差分隐私问题模型:一个受信任的数据监管方C拥有一组数据差分隐私-问题和定义_随机算法。该数据监管方的目标是给出一个随机算法差分隐私-问题和定义_数据_02描述数据子集D的某种指定信息,同时\(A(D)\)保证所有个体差分隐私-问题和定义_差分_03的隐私。

比如在企业薪资数据库中,差分隐私-问题和定义_差分_04表示员工i的薪资,则A(D)返回一个与员工集合D的平均工资相关的随机变量。

为了保护隐私,企业通常不会允许查询单个的用户信息,而是允许查询一个群体信息。但是,查询群体信息也存在泄漏隐私的风险,下面是严格的差分隐私的定义:

\(\varepsilon-\)差分隐私:令差分隐私-问题和定义_数据_05为一个随机算法,其中差分隐私-问题和定义_数据_06所有子集构成的集合,Y为A的值域。;令\(D_1, D_2 \subseteq \chi\)且相差一条数据不同(相邻数据集)。令\(\varepsilon > 0\)。算法A满足\(\varepsilon-\)差分隐私,当且仅当\(\forall D_1, D_2 \subseteq \chi\)为相邻数据集并且所有的\(y \subset Y\),以下不等式成立:

\[\frac{Pr[A(D_1)\in Y]}{Pr[A(D_2) \in Y]} \leq exp(\varepsilon) \]

其中\(\varepsilon\)称为差分隐私算法的隐私预算

当\(\varepsilon\)很小时,令\(1 + \epsilon \leq \varepsilon\),则:

\[1 - \epsilon \leq \frac{Pr[A(D_1)\in Y]}{Pr[A(D_2) \in Y]} \leq 1 + \epsilon \]

这表示\(A(D_1), A(D_2)\)在概率意义上近似相等。

性质

  • \(\varepsilon\)越小,则隐私保护性越强
  • 隐私保护和算法性能之间存在取舍;隐私保护性越强,算法的性能越弱。

变形差分隐私

\((\varepsilon, \delta)-\)差分隐私:令随机算法A:\(2^{\chi} \to Y\), 令\(\delta, \varepsilon > 0\), 算法A满足\((\varepsilon, \delta)-\)差分隐私,当且仅当\(\forall D_1, D-2 \subseteq \chi\)为相邻数据集和所有的\(y \in Y\),以下等式成立:

差分隐私-问题和定义_差分_07

可以看出差分隐私-问题和定义_数据_08差分隐私是差分隐私-问题和定义_数据_09差分隐私变形的来的,其中差分隐私-问题和定义_数据_10差分隐私-问题和定义_随机算法_11)差分隐私的可能失效的概率。

差分隐私-问题和定义_差分_12

局部差分隐私

以上的两种差分隐私都涉及到一个数据管理第三方,但是在实际情况下很难找到这样的第三方。所以局部差分隐私出现了。每条数据作为独立的数据监管方对自己的数据独立地加入噪声以保护其隐私。

差分隐私-问题和定义_数据_13局部差分隐私:令随机算法A: 差分隐私-问题和定义_随机算法_14, 令差分隐私-问题和定义_随机算法_150\), 算法A满足差分隐私-问题和定义_数据_13局部差分隐私,当且仅当差分隐私-问题和定义_数据_17差分隐私-问题和定义_随机算法_18, 以下不等式成立:

差分隐私-问题和定义_数据_19

其中\(x^{'}\)表示隐私数据\(x\)添加噪声之后的数据。

差分隐私-问题和定义_差分_20