文章目录

  • 二、多元正态分布
  • 1.多元正态分布的定义
  • 2.多元正态分布分量独立性
  • 3.多元正态分布的条件分布
  • 4.最佳预测
  • 回顾总结


二、多元正态分布

1.多元正态分布的定义

由大数定律,自然界中许多随机现象都服从正态分布,因此在统计中正态分布是最重要的一类分布,在多元统计中也是如此,现在我们先对多元正态分布作出定义。值得注意的是,有很多种定义方式都可以定义出一个多元正态分布,我们将从不同角度进行定义。

第一种定义从标准正态分布随机向量的线性变换入手。

多元正态分布定义一:设多元正态分布python 多元正态分布标准化_多元正态分布python是随机向量且多元正态分布python 多元正态分布标准化_正态分布_02相互独立,服从标准正态分布即多元正态分布python 多元正态分布标准化_多元正态分布python_03分布。对多元正态分布python 多元正态分布标准化_多元统计分析_04维常数向量多元正态分布python 多元正态分布标准化_线性变换_05多元正态分布python 多元正态分布标准化_正态分布_06常数矩阵多元正态分布python 多元正态分布标准化_多元正态分布python_07,记
多元正态分布python 多元正态分布标准化_线性变换_08
则称多元正态分布python 多元正态分布标准化_正态分布_09的分布为多元正态分布python 多元正态分布标准化_多元统计分析_04元正态分布,称多元正态分布python 多元正态分布标准化_正态分布_09多元正态分布python 多元正态分布标准化_多元统计分析_04维正态随机向量,记作多元正态分布python 多元正态分布标准化_特征函数_13

在第一种定义中,多元正态分布被表示为一些相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布。显然多元正态分布python 多元正态分布标准化_多元统计分析_14,所以多元正态分布python 多元正态分布标准化_特征函数_15,也就是说多元正态分布多元正态分布python 多元正态分布标准化_线性变换_16中两个参数分别是随机向量的均值向量与自协方差矩阵。

在一元统计中,随机变量的分布能与其特征函数唯一相互确定。在多元统计也是这样,且多元统计中的特征函数,是一组数到一个数的映射,即多元正态分布python 多元正态分布标准化_特征函数_17的特征函数为多元正态分布python 多元正态分布标准化_特征函数_18。因此,我们如果能求出多元正态分布python 多元正态分布标准化_特征函数_17的特征函数形式,就可以从特征函数的角度定义多元正态分布,现在我们求如定义一定义的的多元正态分布python 多元正态分布标准化_特征函数_17的特征函数,如下。
多元正态分布python 多元正态分布标准化_正态分布_21
这里第三行到第四行是因为多元正态分布python 多元正态分布标准化_多元统计分析_22相互独立,第四行到第五行是因为标准正态分布的特征函数为多元正态分布python 多元正态分布标准化_多元统计分析_23,第六行到第七行运用了内积的性质。

因为标准正态分布的两个参数分别是均值向量和自协方差矩阵,对比在特征函数中的形式,我们可以从特征函数的角度定义多元正态分布python 多元正态分布标准化_多元正态分布python_24元正态分布:

多元正态分布定义二:若多元正态分布python 多元正态分布标准化_多元统计分析_04维随机向量多元正态分布python 多元正态分布标准化_正态分布_09的特征函数为
多元正态分布python 多元正态分布标准化_特征函数_27
则称多元正态分布python 多元正态分布标准化_正态分布_09服从多元正态分布python 多元正态分布标准化_多元统计分析_04维正态分布,这里多元正态分布python 多元正态分布标准化_特征函数_30分别是均值向量和自协方差矩阵。

这说明,如果多元正态分布python 多元正态分布标准化_特征函数_17服从多元正态分布python 多元正态分布标准化_多元正态分布python_24维正态分布,则多元正态分布python 多元正态分布标准化_特征函数_17的分布仅由两个参数决定——均值向量、自协方差矩阵。如果多元正态分布python 多元正态分布标准化_正态分布_34,则多元正态分布python 多元正态分布标准化_正态分布_35,由定义一,多元正态分布python 多元正态分布标准化_特征函数_36。如果对多元正态分布python 多元正态分布标准化_特征函数_17作线性变换,即用一个多元正态分布python 多元正态分布标准化_正态分布_38常数矩阵多元正态分布python 多元正态分布标准化_多元统计分析_39多元正态分布python 多元正态分布标准化_正态分布_40维常数向量多元正态分布python 多元正态分布标准化_特征函数_41进行处理:多元正态分布python 多元正态分布标准化_多元统计分析_42,则
多元正态分布python 多元正态分布标准化_多元统计分析_43
所以多元正态分布python 多元正态分布标准化_正态分布_44,即对正态随机向量作线性变换得到的仍然是正态随机向量。特别取多元正态分布python 多元正态分布标准化_特征函数_45时,推出正态随机向量多元正态分布python 多元正态分布标准化_特征函数_17边缘分布仍然是正态随机向量(变量)。

第三种定义由正态随机变量的线性变换定义,这里注重的是随机向量的内部结构

多元正态分布定义三:若多元正态分布python 多元正态分布标准化_多元统计分析_04维随机向量多元正态分布python 多元正态分布标准化_正态分布_09的任意线性组合均服从一元正态分布,则称多元正态分布python 多元正态分布标准化_正态分布_09多元正态分布python 多元正态分布标准化_多元统计分析_04维正态随机向量。

因为我们已经证明了,以前两种方式定义的多元随机向量多元正态分布python 多元正态分布标准化_特征函数_17的任意线性变换,得到的一维随机变量服从正态分布(只需取多元正态分布python 多元正态分布标准化_多元统计分析_39多元正态分布python 多元正态分布标准化_特征函数_53向量,多元正态分布python 多元正态分布标准化_特征函数_54即可),所以要证明这个定义与前两种定义的等价性,需要证明,对任意随机向量多元正态分布python 多元正态分布标准化_特征函数_17和实向量多元正态分布python 多元正态分布标准化_特征函数_56多元正态分布python 多元正态分布标准化_正态分布_57是正态随机变量,能推出多元正态分布python 多元正态分布标准化_特征函数_17是由前两种方式定义的多元正态分布python 多元正态分布标准化_多元正态分布python_24维正态随机向量。

既然多元正态分布python 多元正态分布标准化_正态分布_60是一元正态分布,则多元正态分布python 多元正态分布标准化_特征函数_61必然存在,这样多元正态分布python 多元正态分布标准化_多元正态分布python_62多元正态分布python 多元正态分布标准化_多元统计分析_63,且多元正态分布python 多元正态分布标准化_正态分布_60的特征函数是
多元正态分布python 多元正态分布标准化_多元统计分析_65
所以
多元正态分布python 多元正态分布标准化_多元正态分布python_66
这就说明多元正态分布python 多元正态分布标准化_特征函数_17服从多元正态分布python 多元正态分布标准化_多元正态分布python_24维正态分布(定义二)。

最后一种定义则由联合密度入手,计算由前三种定义导出的多元正态分布python 多元正态分布标准化_特征函数_17的联合密度,这样,服从此联合密度的随机向量就应该是多元正态分布python 多元正态分布标准化_多元正态分布python_24维随机向量。

不妨设多元正态分布python 多元正态分布标准化_特征函数_36如定义一所示,则多元正态分布python 多元正态分布标准化_特征函数_72的变换雅克比行列式为
多元正态分布python 多元正态分布标准化_多元统计分析_73
此时要求多元正态分布python 多元正态分布标准化_多元统计分析_74。因为多元正态分布python 多元正态分布标准化_多元正态分布python_75为标准独立正态随机变量构成的随机向量,所以多元正态分布python 多元正态分布标准化_多元正态分布python_75的联合密度函数为:
多元正态分布python 多元正态分布标准化_特征函数_77
这样就得到
多元正态分布python 多元正态分布标准化_线性变换_78

多元正态分布定义四:如果多元正态分布python 多元正态分布标准化_多元统计分析_04维随机向量多元正态分布python 多元正态分布标准化_正态分布_09的联合密度函数为
多元正态分布python 多元正态分布标准化_多元统计分析_81
这里多元正态分布python 多元正态分布标准化_线性变换_05多元正态分布python 多元正态分布标准化_多元统计分析_04维实向量,多元正态分布python 多元正态分布标准化_特征函数_84多元正态分布python 多元正态分布标准化_多元统计分析_04阶正定矩阵,则称多元正态分布python 多元正态分布标准化_正态分布_09服从多元正态分布python 多元正态分布标准化_多元统计分析_04维正态分布,即多元正态分布python 多元正态分布标准化_正态分布_88

纵观多元正态分布的四种定义,分别从独立标准正态分布、特征函数、随机向量自身结构、联合密度函数入手,表示同一种分布类型。也就是说,正态随机向量只需要两个参数——均值向量、自协方差矩阵就能够得到很多信息。

2.多元正态分布分量独立性

要讨论正态随机向量的独立性,就要将正态向量的分量分为两个部分,我们不妨将两组分量集中放置,即将多元正态分布python 多元正态分布标准化_多元正态分布python_24维随机向量分成多元正态分布python 多元正态分布标准化_多元正态分布python_90维的一组多元正态分布python 多元正态分布标准化_正态分布_91多元正态分布python 多元正态分布标准化_多元统计分析_92维的一组多元正态分布python 多元正态分布标准化_正态分布_91,这样就是
多元正态分布python 多元正态分布标准化_多元统计分析_94
既然将分量分成了两组,我们可以研究这两组分量之间的关系。最直接的关系就是独立性,如果多元正态分布python 多元正态分布标准化_特征函数_17独立的,那么有多元正态分布python 多元正态分布标准化_线性变换_96。接下来的定理给出了独立性的条件:

正态随机向量的独立性:多元正态分布python 多元正态分布标准化_多元正态分布python_97独立,等价于多元正态分布python 多元正态分布标准化_多元正态分布python_97不相关,即
多元正态分布python 多元正态分布标准化_多元正态分布python_99

对于一般的随机向量,独立涵盖不相关,但不相关不意味着独立,而在正态约束下独立与不相关是等价的,因为
多元正态分布python 多元正态分布标准化_线性变换_100
也就是说,如果将多元正态分布python 多元正态分布标准化_特征函数_17进行分块,得到的分块自协方差阵只要是分块对角阵,则按照此分块方式,多元正态分布python 多元正态分布标准化_特征函数_17的分量各组合是不相关的,也就是相互独立的。特别当多元正态分布python 多元正态分布标准化_正态分布_103本身是对角阵的时候,多元正态分布python 多元正态分布标准化_特征函数_17的每一个分量之间都相互独立,结合多元正态分布python 多元正态分布标准化_正态分布_103实对称矩阵可以正交对角化的特点,就可以用一个正交变换,将多元正态分布python 多元正态分布标准化_特征函数_17变成等量独立正态变量组成的随机向量多元正态分布python 多元正态分布标准化_线性变换_107

3.多元正态分布的条件分布

但是,当多元正态分布python 多元正态分布标准化_多元正态分布python_108不独立时,求条件分布就比较繁琐。比较基础的问题是,给定多元正态分布python 多元正态分布标准化_多元正态分布python_109时,多元正态分布python 多元正态分布标准化_正态分布_91的条件分布还是不是一个多元正态分布python 多元正态分布标准化_多元正态分布python_90元正态分布?如果是,它的均值、自协方差矩阵分别是多少?以下定理给出了解答。

正态分布的条件分布:设多元正态分布python 多元正态分布标准化_正态分布_88,被分组成为多元正态分布python 多元正态分布标准化_多元正态分布python_97,则给定多元正态分布python 多元正态分布标准化_多元统计分析_114多元正态分布python 多元正态分布标准化_多元正态分布python_115的条件分布是
多元正态分布python 多元正态分布标准化_线性变换_116
其中
多元正态分布python 多元正态分布标准化_特征函数_117
也就是说,多元正态分布的条件分布仍然是一个正态分布。

要证明这个定理,作一个非奇异线性变换:
多元正态分布python 多元正态分布标准化_线性变换_118
做这个非奇异线性变化的意义,其实是在多元正态分布python 多元正态分布标准化_正态分布_91中,扣掉在多元正态分布python 多元正态分布标准化_多元正态分布python_109方向上的那部分,也就相当于把多元正态分布python 多元正态分布标准化_正态分布_91向与多元正态分布python 多元正态分布标准化_多元正态分布python_109正交的方向做一个映射,我们接下来将证明多元正态分布python 多元正态分布标准化_线性变换_123相互独立的,也就是在这样的处理后,将多元正态分布python 多元正态分布标准化_特征函数_124多元正态分布python 多元正态分布标准化_多元正态分布python_109变成相互正交的。所以这个多元正态分布python 多元正态分布标准化_正态分布_126事实上是很重要的一个量,多元正态分布python 多元正态分布标准化_正态分布_91多元正态分布python 多元正态分布标准化_多元正态分布python_109方向上投影的大小,要想构造出来,就要找到一个多元正态分布python 多元正态分布标准化_线性变换_129使得多元正态分布python 多元正态分布标准化_线性变换_130多元正态分布python 多元正态分布标准化_多元正态分布python_109相互独立,最后能够得到多元正态分布python 多元正态分布标准化_线性变换_132

现在我们要证明多元正态分布python 多元正态分布标准化_线性变换_123是相互独立的,由于在线性变换下多元正态分布python 多元正态分布标准化_多元正态分布python_134是一个多元正态分布,所以只需要计算其均值、方差即可确定其分布,那么
多元正态分布python 多元正态分布标准化_线性变换_135
这就证明多元正态分布python 多元正态分布标准化_线性变换_123的不相关性,即独立,于是多元正态分布python 多元正态分布标准化_线性变换_123的联合密度函数很容易写出,且多元正态分布python 多元正态分布标准化_正态分布_138。又因为多元正态分布python 多元正态分布标准化_线性变换_139,所以
多元正态分布python 多元正态分布标准化_特征函数_140
也就是多元正态分布python 多元正态分布标准化_多元正态分布python_141,证明了结论。

在结论的证明过程中,我们注意到多元正态分布python 多元正态分布标准化_正态分布_126是一个很重要的量,它消除了多元正态分布python 多元正态分布标准化_正态分布_91多元正态分布python 多元正态分布标准化_多元正态分布python_109的关联部分,我们称多元正态分布python 多元正态分布标准化_正态分布_126多元正态分布python 多元正态分布标准化_正态分布_91多元正态分布python 多元正态分布标准化_多元正态分布python_109回归系数,类似地,多元正态分布python 多元正态分布标准化_特征函数_148就是多元正态分布python 多元正态分布标准化_多元正态分布python_109多元正态分布python 多元正态分布标准化_正态分布_91的回归系数;同时,多元正态分布python 多元正态分布标准化_正态分布_91在扣除其对多元正态分布python 多元正态分布标准化_多元正态分布python_109的回归部分后,与多元正态分布python 多元正态分布标准化_多元正态分布python_109是独立的;多元正态分布python 多元正态分布标准化_多元正态分布python_109在扣除其对多元正态分布python 多元正态分布标准化_正态分布_91的回归部分后与多元正态分布python 多元正态分布标准化_正态分布_91是独立的,这些都是在证明中得到的结论。

在给定多元正态分布python 多元正态分布标准化_多元正态分布python_109多元正态分布python 多元正态分布标准化_正态分布_91的条件期望多元正态分布python 多元正态分布标准化_多元正态分布python_159称为多元正态分布python 多元正态分布标准化_正态分布_91多元正态分布python 多元正态分布标准化_多元正态分布python_109回归。记多元正态分布python 多元正态分布标准化_多元统计分析_162,则给定多元正态分布python 多元正态分布标准化_多元正态分布python_109多元正态分布python 多元正态分布标准化_多元统计分析_164的“条件相关系数”称为偏相关系数,即
多元正态分布python 多元正态分布标准化_线性变换_165

4.最佳预测

在实际生活中,我们可能会用某个对象的若干个属性,对一个属性进行预测。其中,若干个属性是可以测量的,需要预测的属性是不可测量需要估计的。如何将这个属性最好地估计出来是一个需要考虑的问题,因此我们在多元正态分布的分块中,将分量分成(待估的)多元正态分布python 多元正态分布标准化_多元正态分布python_166个一组和(可测的)多元正态分布python 多元正态分布标准化_多元正态分布python_24个一组,讨论这类特殊情况。

如果将正态随机向量拆分为多元正态分布python 多元正态分布标准化_多元正态分布python_166个分量与多元正态分布python 多元正态分布标准化_多元正态分布python_24个分量构成的两组,也就是
多元正态分布python 多元正态分布标准化_多元正态分布python_170
如果给定多元正态分布python 多元正态分布标准化_特征函数_17,则一维随机正态变量多元正态分布python 多元正态分布标准化_线性变换_107的方差为多元正态分布python 多元正态分布标准化_正态分布_173,期望为多元正态分布python 多元正态分布标准化_多元正态分布python_174。称多元正态分布python 多元正态分布标准化_线性变换_107多元正态分布python 多元正态分布标准化_多元正态分布python_176全相关系数
多元正态分布python 多元正态分布标准化_正态分布_177
可以看到,满足多元正态分布python 多元正态分布标准化_正态分布_178,所以给定多元正态分布python 多元正态分布标准化_特征函数_17的情况下,多元正态分布python 多元正态分布标准化_特征函数_180的方差与多元正态分布python 多元正态分布标准化_特征函数_17的测定值无关,只与多元正态分布python 多元正态分布标准化_线性变换_107自身的方差与全相关系数有关,且全相关系数越大,多元正态分布python 多元正态分布标准化_特征函数_180的方差就越小。

另外,条件期望多元正态分布python 多元正态分布标准化_正态分布_184,实际上是在均方误差最小的准则下,对多元正态分布python 多元正态分布标准化_线性变换_107最佳预测函数,因为对任何其他多元正态分布python 多元正态分布标准化_多元正态分布python_24元函数多元正态分布python 多元正态分布标准化_正态分布_187,都有
多元正态分布python 多元正态分布标准化_多元统计分析_188

回顾总结

  1. 多元正态分布有四种定义方式,除了第一种从独立标准正态分布的线性变换入手外,另外三种都从随机向量自身的性质入手,分别是特征函数、正态性结构、密度函数。其中特征函数与密度函数(要求正定协方差阵)如下:
    多元正态分布python 多元正态分布标准化_线性变换_189
  2. 对正态随机向量,不相关与独立等价,从而分量组独立,则分组协方差阵是分块对角阵。特别当每个分量都独立时,协方差阵是对角阵。
  3. 对于正态随机向量的分量组多元正态分布python 多元正态分布标准化_正态分布_190多元正态分布python 多元正态分布标准化_多元统计分析_191多元正态分布python 多元正态分布标准化_线性变换_192的回归系数为多元正态分布python 多元正态分布标准化_正态分布_193,如果从多元正态分布python 多元正态分布标准化_多元统计分析_191中扣掉回归部分多元正态分布python 多元正态分布标准化_线性变换_195,则剩余部分与多元正态分布python 多元正态分布标准化_线性变换_192独立。在给定多元正态分布python 多元正态分布标准化_线性变换_192的情况下,
    多元正态分布python 多元正态分布标准化_特征函数_198
    这里,条件期望称为多元正态分布python 多元正态分布标准化_多元统计分析_191多元正态分布python 多元正态分布标准化_线性变换_192的回归。
  4. 对于正态随机向量分出的多元正态分布python 多元正态分布标准化_多元正态分布python_201多元正态分布python 多元正态分布标准化_特征函数_202维分量多元正态分布python 多元正态分布标准化_正态分布_203,称多元正态分布python 多元正态分布标准化_特征函数_204是已知多元正态分布python 多元正态分布标准化_正态分布_203多元正态分布python 多元正态分布标准化_多元正态分布python_201的最佳预测,全相关系数为
    多元正态分布python 多元正态分布标准化_正态分布_207
    全相关系数越大,最佳预测的精确度就越高,方差越小。