多元正态分布python 多元正态分布标准化

转载

网猴儿 2023-11-06 14:03:19

文章标签 多元正态分布python 多元统计分析正态分布特征函数线性变换 文章分类 Python 后端开发

文章目录

二、多元正态分布

1.多元正态分布的定义
2.多元正态分布分量独立性
3.多元正态分布的条件分布
4.最佳预测
回顾总结

二、多元正态分布

1.多元正态分布的定义

由大数定律，自然界中许多随机现象都服从正态分布，因此在统计中正态分布是最重要的一类分布，在多元统计中也是如此，现在我们先对多元正态分布作出定义。值得注意的是，有很多种定义方式都可以定义出一个多元正态分布，我们将从不同角度进行定义。

第一种定义从标准正态分布随机向量的线性变换入手。

多元正态分布定义一：设 $多元正态分布python 多元正态分布标准化_多元正态分布python$ 是随机向量且 $多元正态分布python 多元正态分布标准化_正态分布_02$ 相互独立，服从标准正态分布即 $多元正态分布python 多元正态分布标准化_多元正态分布python_03$ 分布。对 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维常数向量 $多元正态分布python 多元正态分布标准化_线性变换_05$ 和 $多元正态分布python 多元正态分布标准化_正态分布_06$ 常数矩阵 $多元正态分布python 多元正态分布标准化_多元正态分布python_07$ ，记
$多元正态分布python 多元正态分布标准化_线性变换_08$
则称 $多元正态分布python 多元正态分布标准化_正态分布_09$ 的分布为 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 元正态分布，称 $多元正态分布python 多元正态分布标准化_正态分布_09$ 为 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维正态随机向量，记作 $多元正态分布python 多元正态分布标准化_特征函数_13$ 。

在第一种定义中，多元正态分布被表示为一些相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布。显然 $多元正态分布python 多元正态分布标准化_多元统计分析_14$ ，所以 $多元正态分布python 多元正态分布标准化_特征函数_15$ ，也就是说多元正态分布 $多元正态分布python 多元正态分布标准化_线性变换_16$ 中两个参数分别是随机向量的均值向量与自协方差矩阵。

在一元统计中，随机变量的分布能与其特征函数唯一相互确定。在多元统计也是这样，且多元统计中的特征函数，是一组数到一个数的映射，即 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的特征函数为 $多元正态分布python 多元正态分布标准化_特征函数_18$ 。因此，我们如果能求出 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的特征函数形式，就可以从特征函数的角度定义多元正态分布，现在我们求如定义一定义的的 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的特征函数，如下。
$多元正态分布python 多元正态分布标准化_正态分布_21$
这里第三行到第四行是因为 $多元正态分布python 多元正态分布标准化_多元统计分析_22$ 相互独立，第四行到第五行是因为标准正态分布的特征函数为 $多元正态分布python 多元正态分布标准化_多元统计分析_23$ ，第六行到第七行运用了内积的性质。

因为标准正态分布的两个参数分别是均值向量和自协方差矩阵，对比在特征函数中的形式，我们可以从特征函数的角度定义 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 元正态分布：

多元正态分布定义二：若 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维随机向量 $多元正态分布python 多元正态分布标准化_正态分布_09$ 的特征函数为
$多元正态分布python 多元正态分布标准化_特征函数_27$
则称 $多元正态分布python 多元正态分布标准化_正态分布_09$ 服从 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维正态分布，这里 $多元正态分布python 多元正态分布标准化_特征函数_30$ 分别是均值向量和自协方差矩阵。

这说明，如果 $多元正态分布python 多元正态分布标准化_特征函数_17$ 服从 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 维正态分布，则 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的分布仅由两个参数决定——均值向量、自协方差矩阵。如果 $多元正态分布python 多元正态分布标准化_正态分布_34$ ，则 $多元正态分布python 多元正态分布标准化_正态分布_35$ ，由定义一， $多元正态分布python 多元正态分布标准化_特征函数_36$ 。如果对 $多元正态分布python 多元正态分布标准化_特征函数_17$ 作线性变换，即用一个 $多元正态分布python 多元正态分布标准化_正态分布_38$ 常数矩阵 $多元正态分布python 多元正态分布标准化_多元统计分析_39$ 和 $多元正态分布python 多元正态分布标准化_正态分布_40$ 维常数向量 $多元正态分布python 多元正态分布标准化_特征函数_41$ 进行处理： $多元正态分布python 多元正态分布标准化_多元统计分析_42$ ，则
$多元正态分布python 多元正态分布标准化_多元统计分析_43$
所以 $多元正态分布python 多元正态分布标准化_正态分布_44$ ，即对正态随机向量作线性变换得到的仍然是正态随机向量。特别取 $多元正态分布python 多元正态分布标准化_特征函数_45$ 时，推出正态随机向量 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的边缘分布仍然是正态随机向量（变量）。

第三种定义由正态随机变量的线性变换定义，这里注重的是随机向量的内部结构。

多元正态分布定义三：若 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维随机向量 $多元正态分布python 多元正态分布标准化_正态分布_09$ 的任意线性组合均服从一元正态分布，则称 $多元正态分布python 多元正态分布标准化_正态分布_09$ 为 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维正态随机向量。

因为我们已经证明了，以前两种方式定义的多元随机向量 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的任意线性变换，得到的一维随机变量服从正态分布（只需取 $多元正态分布python 多元正态分布标准化_多元统计分析_39$ 是 $多元正态分布python 多元正态分布标准化_特征函数_53$ 向量， $多元正态分布python 多元正态分布标准化_特征函数_54$ 即可），所以要证明这个定义与前两种定义的等价性，需要证明，对任意随机向量 $多元正态分布python 多元正态分布标准化_特征函数_17$ 和实向量 $多元正态分布python 多元正态分布标准化_特征函数_56$ ， $多元正态分布python 多元正态分布标准化_正态分布_57$ 是正态随机变量，能推出 $多元正态分布python 多元正态分布标准化_特征函数_17$ 是由前两种方式定义的 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 维正态随机向量。

既然 $多元正态分布python 多元正态分布标准化_正态分布_60$ 是一元正态分布，则 $多元正态分布python 多元正态分布标准化_特征函数_61$ 必然存在，这样 $多元正态分布python 多元正态分布标准化_多元正态分布python_62$ ， $多元正态分布python 多元正态分布标准化_多元统计分析_63$ ，且 $多元正态分布python 多元正态分布标准化_正态分布_60$ 的特征函数是
$多元正态分布python 多元正态分布标准化_多元统计分析_65$
所以
$多元正态分布python 多元正态分布标准化_多元正态分布python_66$
这就说明 $多元正态分布python 多元正态分布标准化_特征函数_17$ 服从 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 维正态分布（定义二）。

最后一种定义则由联合密度入手，计算由前三种定义导出的 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的联合密度，这样，服从此联合密度的随机向量就应该是 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 维随机向量。

不妨设 $多元正态分布python 多元正态分布标准化_特征函数_36$ 如定义一所示，则 $多元正态分布python 多元正态分布标准化_特征函数_72$ 的变换雅克比行列式为
$多元正态分布python 多元正态分布标准化_多元统计分析_73$
此时要求 $多元正态分布python 多元正态分布标准化_多元统计分析_74$ 。因为 $多元正态分布python 多元正态分布标准化_多元正态分布python_75$ 为标准独立正态随机变量构成的随机向量，所以 $多元正态分布python 多元正态分布标准化_多元正态分布python_75$ 的联合密度函数为：
$多元正态分布python 多元正态分布标准化_特征函数_77$
这样就得到
$多元正态分布python 多元正态分布标准化_线性变换_78$

多元正态分布定义四：如果 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维随机向量 $多元正态分布python 多元正态分布标准化_正态分布_09$ 的联合密度函数为
$多元正态分布python 多元正态分布标准化_多元统计分析_81$
这里 $多元正态分布python 多元正态分布标准化_线性变换_05$ 是 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维实向量， $多元正态分布python 多元正态分布标准化_特征函数_84$ 是 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 阶正定矩阵，则称 $多元正态分布python 多元正态分布标准化_正态分布_09$ 服从 $多元正态分布python 多元正态分布标准化_多元统计分析_04$ 维正态分布，即 $多元正态分布python 多元正态分布标准化_正态分布_88$ 。

纵观多元正态分布的四种定义，分别从独立标准正态分布、特征函数、随机向量自身结构、联合密度函数入手，表示同一种分布类型。也就是说，正态随机向量只需要两个参数——均值向量、自协方差矩阵就能够得到很多信息。

2.多元正态分布分量独立性

要讨论正态随机向量的独立性，就要将正态向量的分量分为两个部分，我们不妨将两组分量集中放置，即将 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 维随机向量分成 $多元正态分布python 多元正态分布标准化_多元正态分布python_90$ 维的一组 $多元正态分布python 多元正态分布标准化_正态分布_91$ 与 $多元正态分布python 多元正态分布标准化_多元统计分析_92$ 维的一组 $多元正态分布python 多元正态分布标准化_正态分布_91$ ，这样就是
$多元正态分布python 多元正态分布标准化_多元统计分析_94$
既然将分量分成了两组，我们可以研究这两组分量之间的关系。最直接的关系就是独立性，如果 $多元正态分布python 多元正态分布标准化_特征函数_17$ 独立的，那么有 $多元正态分布python 多元正态分布标准化_线性变换_96$ 。接下来的定理给出了独立性的条件：

正态随机向量的独立性： $多元正态分布python 多元正态分布标准化_多元正态分布python_97$ 独立，等价于 $多元正态分布python 多元正态分布标准化_多元正态分布python_97$ 不相关，即
$多元正态分布python 多元正态分布标准化_多元正态分布python_99$

对于一般的随机向量，独立涵盖不相关，但不相关不意味着独立，而在正态约束下独立与不相关是等价的，因为
$多元正态分布python 多元正态分布标准化_线性变换_100$
也就是说，如果将 $多元正态分布python 多元正态分布标准化_特征函数_17$ 进行分块，得到的分块自协方差阵只要是分块对角阵，则按照此分块方式， $多元正态分布python 多元正态分布标准化_特征函数_17$ 的分量各组合是不相关的，也就是相互独立的。特别当 $多元正态分布python 多元正态分布标准化_正态分布_103$ 本身是对角阵的时候， $多元正态分布python 多元正态分布标准化_特征函数_17$ 的每一个分量之间都相互独立，结合 $多元正态分布python 多元正态分布标准化_正态分布_103$ 是实对称矩阵可以正交对角化的特点，就可以用一个正交变换，将 $多元正态分布python 多元正态分布标准化_特征函数_17$ 变成等量独立正态变量组成的随机向量 $多元正态分布python 多元正态分布标准化_线性变换_107$ 。

3.多元正态分布的条件分布

但是，当 $多元正态分布python 多元正态分布标准化_多元正态分布python_108$ 不独立时，求条件分布就比较繁琐。比较基础的问题是，给定 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 时， $多元正态分布python 多元正态分布标准化_正态分布_91$ 的条件分布还是不是一个 $多元正态分布python 多元正态分布标准化_多元正态分布python_90$ 元正态分布？如果是，它的均值、自协方差矩阵分别是多少？以下定理给出了解答。

正态分布的条件分布：设 $多元正态分布python 多元正态分布标准化_正态分布_88$ ，被分组成为 $多元正态分布python 多元正态分布标准化_多元正态分布python_97$ ，则给定 $多元正态分布python 多元正态分布标准化_多元统计分析_114$ 时 $多元正态分布python 多元正态分布标准化_多元正态分布python_115$ 的条件分布是
$多元正态分布python 多元正态分布标准化_线性变换_116$
其中
$多元正态分布python 多元正态分布标准化_特征函数_117$
也就是说，多元正态分布的条件分布仍然是一个正态分布。

要证明这个定理，作一个非奇异线性变换：
$多元正态分布python 多元正态分布标准化_线性变换_118$
做这个非奇异线性变化的意义，其实是在 $多元正态分布python 多元正态分布标准化_正态分布_91$ 中，扣掉在 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 方向上的那部分，也就相当于把 $多元正态分布python 多元正态分布标准化_正态分布_91$ 向与 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 正交的方向做一个映射，我们接下来将证明 $多元正态分布python 多元正态分布标准化_线性变换_123$ 是相互独立的，也就是在这样的处理后，将 $多元正态分布python 多元正态分布标准化_特征函数_124$ 与 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 变成相互正交的。所以这个 $多元正态分布python 多元正态分布标准化_正态分布_126$ 事实上是很重要的一个量， $多元正态分布python 多元正态分布标准化_正态分布_91$ 在 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 方向上投影的大小，要想构造出来，就要找到一个 $多元正态分布python 多元正态分布标准化_线性变换_129$ 使得 $多元正态分布python 多元正态分布标准化_线性变换_130$ 与 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 相互独立，最后能够得到 $多元正态分布python 多元正态分布标准化_线性变换_132$ 。

现在我们要证明 $多元正态分布python 多元正态分布标准化_线性变换_123$ 是相互独立的，由于在线性变换下 $多元正态分布python 多元正态分布标准化_多元正态分布python_134$ 是一个多元正态分布，所以只需要计算其均值、方差即可确定其分布，那么
$多元正态分布python 多元正态分布标准化_线性变换_135$
这就证明 $多元正态分布python 多元正态分布标准化_线性变换_123$ 的不相关性，即独立，于是 $多元正态分布python 多元正态分布标准化_线性变换_123$ 的联合密度函数很容易写出，且 $多元正态分布python 多元正态分布标准化_正态分布_138$ 。又因为 $多元正态分布python 多元正态分布标准化_线性变换_139$ ，所以
$多元正态分布python 多元正态分布标准化_特征函数_140$
也就是 $多元正态分布python 多元正态分布标准化_多元正态分布python_141$ ，证明了结论。

在结论的证明过程中，我们注意到 $多元正态分布python 多元正态分布标准化_正态分布_126$ 是一个很重要的量，它消除了 $多元正态分布python 多元正态分布标准化_正态分布_91$ 对 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 的关联部分，我们称 $多元正态分布python 多元正态分布标准化_正态分布_126$ 是 $多元正态分布python 多元正态分布标准化_正态分布_91$ 对 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 的回归系数，类似地， $多元正态分布python 多元正态分布标准化_特征函数_148$ 就是 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 对 $多元正态分布python 多元正态分布标准化_正态分布_91$ 的回归系数；同时， $多元正态分布python 多元正态分布标准化_正态分布_91$ 在扣除其对 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 的回归部分后，与 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 是独立的； $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 在扣除其对 $多元正态分布python 多元正态分布标准化_正态分布_91$ 的回归部分后与 $多元正态分布python 多元正态分布标准化_正态分布_91$ 是独立的，这些都是在证明中得到的结论。

在给定 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 时 $多元正态分布python 多元正态分布标准化_正态分布_91$ 的条件期望 $多元正态分布python 多元正态分布标准化_多元正态分布python_159$ 称为 $多元正态分布python 多元正态分布标准化_正态分布_91$ 对 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 的回归。记 $多元正态分布python 多元正态分布标准化_多元统计分析_162$ ，则给定 $多元正态分布python 多元正态分布标准化_多元正态分布python_109$ 时 $多元正态分布python 多元正态分布标准化_多元统计分析_164$ 的“条件相关系数”称为偏相关系数，即
$多元正态分布python 多元正态分布标准化_线性变换_165$

4.最佳预测

在实际生活中，我们可能会用某个对象的若干个属性，对一个属性进行预测。其中，若干个属性是可以测量的，需要预测的属性是不可测量需要估计的。如何将这个属性最好地估计出来是一个需要考虑的问题，因此我们在多元正态分布的分块中，将分量分成（待估的） $多元正态分布python 多元正态分布标准化_多元正态分布python_166$ 个一组和（可测的） $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 个一组，讨论这类特殊情况。

如果将正态随机向量拆分为 $多元正态分布python 多元正态分布标准化_多元正态分布python_166$ 个分量与 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 个分量构成的两组，也就是
$多元正态分布python 多元正态分布标准化_多元正态分布python_170$
如果给定 $多元正态分布python 多元正态分布标准化_特征函数_17$ ，则一维随机正态变量 $多元正态分布python 多元正态分布标准化_线性变换_107$ 的方差为 $多元正态分布python 多元正态分布标准化_正态分布_173$ ，期望为 $多元正态分布python 多元正态分布标准化_多元正态分布python_174$ 。称 $多元正态分布python 多元正态分布标准化_线性变换_107$ 与 $多元正态分布python 多元正态分布标准化_多元正态分布python_176$ 的全相关系数为
$多元正态分布python 多元正态分布标准化_正态分布_177$
可以看到，满足 $多元正态分布python 多元正态分布标准化_正态分布_178$ ，所以给定 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的情况下， $多元正态分布python 多元正态分布标准化_特征函数_180$ 的方差与 $多元正态分布python 多元正态分布标准化_特征函数_17$ 的测定值无关，只与 $多元正态分布python 多元正态分布标准化_线性变换_107$ 自身的方差与全相关系数有关，且全相关系数越大， $多元正态分布python 多元正态分布标准化_特征函数_180$ 的方差就越小。

另外，条件期望 $多元正态分布python 多元正态分布标准化_正态分布_184$ ，实际上是在均方误差最小的准则下，对 $多元正态分布python 多元正态分布标准化_线性变换_107$ 的最佳预测函数，因为对任何其他 $多元正态分布python 多元正态分布标准化_多元正态分布python_24$ 元函数 $多元正态分布python 多元正态分布标准化_正态分布_187$ ，都有
$多元正态分布python 多元正态分布标准化_多元统计分析_188$

回顾总结

多元正态分布有四种定义方式，除了第一种从独立标准正态分布的线性变换入手外，另外三种都从随机向量自身的性质入手，分别是特征函数、正态性结构、密度函数。其中特征函数与密度函数（要求正定协方差阵）如下：
$多元正态分布python 多元正态分布标准化_线性变换_189$
对正态随机向量，不相关与独立等价，从而分量组独立，则分组协方差阵是分块对角阵。特别当每个分量都独立时，协方差阵是对角阵。
对于正态随机向量的分量组 $多元正态分布python 多元正态分布标准化_正态分布_190$ ， $多元正态分布python 多元正态分布标准化_多元统计分析_191$ 对 $多元正态分布python 多元正态分布标准化_线性变换_192$ 的回归系数为 $多元正态分布python 多元正态分布标准化_正态分布_193$ ，如果从 $多元正态分布python 多元正态分布标准化_多元统计分析_191$ 中扣掉回归部分 $多元正态分布python 多元正态分布标准化_线性变换_195$ ，则剩余部分与 $多元正态分布python 多元正态分布标准化_线性变换_192$ 独立。在给定 $多元正态分布python 多元正态分布标准化_线性变换_192$ 的情况下，
$多元正态分布python 多元正态分布标准化_特征函数_198$
这里，条件期望称为 $多元正态分布python 多元正态分布标准化_多元统计分析_191$ 对 $多元正态分布python 多元正态分布标准化_线性变换_192$ 的回归。
对于正态随机向量分出的 $多元正态分布python 多元正态分布标准化_多元正态分布python_201$ 与 $多元正态分布python 多元正态分布标准化_特征函数_202$ 维分量 $多元正态分布python 多元正态分布标准化_正态分布_203$ ，称 $多元正态分布python 多元正态分布标准化_特征函数_204$ 是已知 $多元正态分布python 多元正态分布标准化_正态分布_203$ 时 $多元正态分布python 多元正态分布标准化_多元正态分布python_201$ 的最佳预测，全相关系数为
$多元正态分布python 多元正态分布标准化_正态分布_207$
全相关系数越大，最佳预测的精确度就越高，方差越小。