本文主要转载自参考文献【1,2】。虽然公式看起来比较多,并且似乎很复杂,其实并不难理解,静下心来慢慢看。其中,为了进一步增加可理解性,标色的为我在原文基础上加入的自己的理解。


一、多元标准高斯分布

熟悉一元高斯分布的同学都知道, 若随机变量高斯联合分布 python 高斯分布联合概率密度_概率密度函数 , 则有如下的概率密度函数

高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_02


而如果我们对随机变量高斯联合分布 python 高斯分布联合概率密度_协方差_03进行标准化, 用 高斯联合分布 python 高斯分布联合概率密度_协方差_04对(1)进行换元, 继而有

高斯联合分布 python 高斯分布联合概率密度_协方差_05

此时我们说随机变量高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_06服从一元标准高斯分布(高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_07是标准正态分布,下文多次用到), 其均值高斯联合分布 python 高斯分布联合概率密度_概率密度函数_08, 方差 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_09,其概率密度函数为

高斯联合分布 python 高斯分布联合概率密度_线性代数_10


需要注意的是, 为了保证概率密度函数在高斯联合分布 python 高斯分布联合概率密度_概率密度函数_11上的积分为1, 换元时需要求高斯联合分布 python 高斯分布联合概率密度_协方差_12, 从而得到(3).

随机变量高斯联合分布 python 高斯分布联合概率密度_概率密度函数_13

一元标准高斯分布与我们讨论多元标准高斯分布有什么关系呢? 事实上, 多元标准高斯分布的概率密度函数正是从(4)导出的. 假设我们有随机向量高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_14 , 其中 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_15高斯联合分布 python 高斯分布联合概率密度_概率密度函数_16 彼此独立, 即随机向量中的每个随机变量高斯联合分布 python 高斯分布联合概率密度_线性代数_17都服从标准高斯分布且两两彼此独立. 则由(4)与独立随机变量概率密度函数之间的关系, 我们可得随机向量高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_14

高斯联合分布 python 高斯分布联合概率密度_协方差_19


我们称随机向量高斯联合分布 python 高斯分布联合概率密度_协方差_20 , 即随机向量服从均值为零向量, 协方差矩阵为单位矩阵的高斯分布(高斯联合分布 python 高斯分布联合概率密度_协方差_21都服从标准高斯分布且两两彼此独立). 在这里, 随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_22的协方差矩阵是高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_23 组成的矩阵, 即

高斯联合分布 python 高斯分布联合概率密度_协方差_24


由于随机向量高斯联合分布 python 高斯分布联合概率密度_协方差_20 , 所以其协方差矩阵的对角线元素为1, 其余元素为0. 如果我们取常数高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_26 , 则可得函数 高斯联合分布 python 高斯分布联合概率密度_协方差_27 的等高线为高斯联合分布 python 高斯分布联合概率密度_线性代数_28 , 当随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_22为二维向量时, 我们有

高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_30


高斯联合分布 python 高斯分布联合概率密度_线性代数_31就是概率密度函数的等高线,观察概率密度公式,发现只有高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_32不是常数,而其余部分都是常数,即高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_32实际上决定了c的值。由(7)我们可知, 其等高线为以(0, 0)为圆心的同心圆.

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_34

二、多元高斯分布

由上一节我们知道, 当随机向量高斯联合分布 python 高斯分布联合概率密度_协方差_20时, 其每个随机变量高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_15彼此独立, 我们可通过(4)与独立随机变量概率密度函数之间的关系得出其联合概率密度函数(5). 那对于普通的随机向量高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_37 , 即其每个随机变量 高斯联合分布 python 高斯分布联合概率密度_线性代数_38高斯联合分布 python 高斯分布联合概率密度_概率密度函数_39彼此不独立的情况下, 我们该如何求随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40 的联合概率密度函数呢? 一个很自然的想法是, 如果我们能通过线性变换, 使得随机向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_40 中的每个随机变量彼此独立, 则我们也可以通过独立随机变量概率密度函数之间的关系求出其联合概率密度函数. 事实上, 我们有如下定理可完成这个工作(来源)

定理1: 若存在随机向量高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_37 , 其中 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_43为均值向量, 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_44半正定实对称矩阵为 高斯联合分布 python 高斯分布联合概率密度_线性代数_40 的协方差矩阵, 则存在满秩矩阵高斯联合分布 python 高斯分布联合概率密度_概率密度函数_46, 使得高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_47 , 而 高斯联合分布 python 高斯分布联合概率密度_协方差_20.

有了定理1, 我们就可以对随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40 做相应的线性变换, 使其随机变量在线性变换后彼此独立, 从而求出其联合概率密度函数, 具体地

高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_50


由多元函数换元变换公式(与一元中换元高斯联合分布 python 高斯分布联合概率密度_线性代数_51是一个意思,只不过多元需要求雅可比行列式), 我们还需要求出雅可比行列式 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_52, 由(8)可得

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_53


由(9)(10), 我们可进一步得

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_54


我们得到随机向量 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_37 的联合概率密度函数为

高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_56


在(12)中, 随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40 的协方差矩阵还未得到体现, 我们可通过线性变换(8)做进一步处理

高斯联合分布 python 高斯分布联合概率密度_协方差_58


根据(13),我们发现, (12)中高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_59就是线性变换前的随机向量 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_37的协方差矩阵高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_61 , 所以由(12)(13), 我们可以得到联合概率密度函数的最终形式

高斯联合分布 python 高斯分布联合概率密度_协方差_62


原本由定理1, 我们还需要求线性变换矩阵 高斯联合分布 python 高斯分布联合概率密度_协方差_63 , 才能确定随机向量 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_64 的联合概率密度函数的表达式, 现在由(13)我们即可得最终形式(14), 随机向量 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_64 的联合概率密度函数由其均值向量 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_66 和其协方差矩阵 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_67唯一确定, 但我们需要明白的是, 这是通过定理1的线性变换 高斯联合分布 python 高斯分布联合概率密度_线性代数_68得到的, 即此线性变换隐含其中.如果我们取常数 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_69 , 则可得函数高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_70的等高线为高斯联合分布 python 高斯分布联合概率密度_线性代数_71 , 当随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40为二维向量时, 我们对协方差矩阵高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_61进行分解, 因为其为实对称矩阵, 可正交对角化(理论

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_74


由于矩阵高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 是酉矩阵, 所以 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_76 可以理解为将随机向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_40 , 均值向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_78 在矩阵高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 的列向量所组成的单位正交基上进行投影并在该单位正交基上进行相减. 我们不妨记投影后的向量分别为高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_80 , 同时记矩阵 高斯联合分布 python 高斯分布联合概率密度_协方差_81, 则(15)的二次型可表示为

高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_82


由(16)我们可知, 此时函数高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_70 的等高线是在矩阵高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 的列向量所组成的单位正交基上的一个椭圆, 椭圆的中心是高斯联合分布 python 高斯分布联合概率密度_线性代数_85 , 长半轴为 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_86 , 短半轴为高斯联合分布 python 高斯分布联合概率密度_概率密度函数_87如果协方差矩阵高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_61 不是对角矩阵, 则正交对角化得到的酉矩阵 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 不是标准正交基, 其代表一个旋转, 此时的椭圆应该是一个倾斜的椭圆, 随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40 中的随机变量不是彼此独立的;

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_91


如果协方差矩阵 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_61 是对角矩阵, 则正交对角化得到的酉矩阵 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 就是标准正交基, 则前述的投影是在标准正交基上完成的, 此时的椭圆应该是一个水平的椭圆, 随机向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_40 中的随机变量就是彼此独立的.

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_95

三、多元高斯分布的几何意义

现在我们知道, 随机向量 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_37 的联合概率密度函数是通过线性变换 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_47 的帮助, 将随机向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_40 的各个随机变量去相关性, 然后利用独立随机变量概率密度函数之间的关系得出的, 亦既是定理1所表述的内容. 那具体地, 线性变化 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_47 是怎么去相关性使随机向量 高斯联合分布 python 高斯分布联合概率密度_线性代数_40

由定理1我们有

高斯联合分布 python 高斯分布联合概率密度_协方差_101


再由(15)(17)可得

高斯联合分布 python 高斯分布联合概率密度_线性代数_102


由(18)我们已经可以非常明显地看出线性变换高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_47的具体操作了

高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_104


我们先对标准正交基进行拉伸, 横轴和纵轴分别拉伸 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_105 倍, 再使用酉矩阵 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 对拉伸后的正交基进行旋转, 最后将去均值的随机向量 高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_107在新的正交基上进行投影, 从而使完成线性变换高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_47 后的随机变量在新的正交基上彼此独立. 值得注意的是, 如果随机向量高斯联合分布 python 高斯分布联合概率密度_线性代数_40本来就是独立随机变量组成的, 此时其协方差矩阵是一个对角矩阵, 则酉矩阵高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_75 是一个单位矩阵高斯联合分布 python 高斯分布联合概率密度_高斯联合分布 python_111 , 此线性变换中只有拉伸而没有旋转.

高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_112

四、总结

本文从多元标准高斯分布出发, 阐述了如何通过线性变换, 将任意的服从多元高斯分布的随机向量去相关性, 并求出其联合概率密度函数的过程, 最后给出了线性变换的具体过程阐述. 多元高斯分布是许多其他理论工具的基础, 掌握它是进行其他相关理论研究的关键.

五、二维高斯分布

我们已经知道多维高斯分布的概率密度为:

高斯联合分布 python 高斯分布联合概率密度_概率密度函数_113


协方差矩阵是一个对称矩阵,决定了多维高斯分布的形状。

要点:

  • 协方差矩阵的对角线元素为 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_114高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_115
  • 反斜对角线上的两个值为协方差,表明 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_114高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_115的线性相关程度(正值时: 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_114增大, 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_115也随之增大;负值时: 高斯联合分布 python 高斯分布联合概率密度_概率密度函数_114增大, 高斯联合分布 python 高斯分布联合概率密度_协方差矩阵_115随之减小)

以下以二维高斯分布为例,显示了不同协方差矩阵时的概率分布。

高斯联合分布 python 高斯分布联合概率密度_线性代数_122

参考文献

【1】多元高斯分布完全解析 转载自1
【2】协方差矩阵与二维高斯分布