文章目录

  • 一、简介
  • 二 、一元高斯分布
  • 三、多元高斯分布
  • 1、独立多元高斯分布
  • 2、多元相关变量高斯分布


一、简介

 高斯分布是一种重要的模型,也被称作正态分布,其广泛应用与连续型随机变量的分布中。在数据分析领域中高斯分布占有重要地位。掌握高斯分布是学习数据分析的重要基础,下面就结合理论公式和其几何图形来阐述。

 高斯分布会在许多问题中产生。例如,对于一个一元实值向量,使熵取得最大值的是高斯分布;中心极限定理告诉我们:一组随机变量之和的概率分布随着和式中项的数量的增加而逐渐趋向于高斯分布。如果有N个均匀分布在区间高斯DB for mysql 高斯分布_高斯DB for mysql的变量高斯DB for mysql 高斯分布_概率分布_02,其均值高斯DB for mysql 高斯分布_高斯DB for mysql_03的分布,对于N很大时,这个分布趋向于高斯分布,当N增大时,其均值的分布如下图(图片来源于:《模式识别与机器学习》)所示。

高斯DB for mysql 高斯分布_数学基础_04

二 、一元高斯分布

高斯DB for mysql 高斯分布_数学基础_05服从均值为高斯DB for mysql 高斯分布_高斯DB for mysql_06,方差为高斯DB for mysql 高斯分布_正态分布_07的高斯分布,那么:
高斯DB for mysql 高斯分布_数学基础_08
 高斯分布的图形像钟一样,下图展示了一般正态分布的图形。其中高斯DB for mysql 高斯分布_概率分布_09



高斯DB for mysql 高斯分布_数学基础_10


 对于一个非标准的正态分布,可以由标准正态分布经过以下3步变换得到:

  1. 将x向右移动u个单位
  2. 将密度函数x轴延展sigma倍
  3. 将函数密度图像y轴压缩高斯DB for mysql 高斯分布_概率分布_11

高斯DB for mysql 高斯分布_数学基础_05服从分布,高斯DB for mysql 高斯分布_概率分布_13,那么具有以下的性质:

  1. 如果高斯DB for mysql 高斯分布_正态分布_14是实数,那么高斯DB for mysql 高斯分布_高斯DB for mysql_15
  2. 如果高斯DB for mysql 高斯分布_高斯DB for mysql_16,高斯DB for mysql 高斯分布_正态分布_17,且高斯DB for mysql 高斯分布_数学基础_18相互独立,那么高斯DB for mysql 高斯分布_正态分布_19,高斯DB for mysql 高斯分布_概率分布_20
  3. 如果高斯DB for mysql 高斯分布_数据分析_21为独立标准正态分布,那么 高斯DB for mysql 高斯分布_数据分析_22服从自由度为n的卡方分布。

三、多元高斯分布

1、独立多元高斯分布

高斯DB for mysql 高斯分布_高斯DB for mysql_23个变量高斯DB for mysql 高斯分布_数据分析_24相互独立,且服从高斯分布,各个维度的均值高斯DB for mysql 高斯分布_高斯DB for mysql_25 ,方差高斯DB for mysql 高斯分布_概率分布_26,根据联合概率密度公式有:
高斯DB for mysql 高斯分布_数学基础_27
  如果我们令:
高斯DB for mysql 高斯分布_数据分析_28
  我们有:
高斯DB for mysql 高斯分布_正态分布_29
  使用矩阵的形式来表示的话,则有:
高斯DB for mysql 高斯分布_数学基础_30
  定义符号:
高斯DB for mysql 高斯分布_概率分布_31

高斯DB for mysql 高斯分布_正态分布_32
高斯DB for mysql 高斯分布_数学基础_33

  变量代换可得:
高斯DB for mysql 高斯分布_概率分布_34
下面以高斯DB for mysql 高斯分布_概率分布_35

  1. 高斯DB for mysql 高斯分布_正态分布_36时:
  2. 高斯DB for mysql 高斯分布_数学基础_37时:
  3. 高斯DB for mysql 高斯分布_概率分布_38时:
  1. 高斯DB for mysql 高斯分布_正态分布_39时:

 由上图可以看出,当变量之间相互独立的时候:

  1. 当协方差矩阵的特征值越小时,分布函数图像越高越尖。
  2. 当协方差矩阵的特征值相等时,分布函数图像在X1,X2面上的投影是圆形的。当特征值不相等时,分布函数图像在X1,X2面上的投影是椭圆形的,X1,X2相互独立时,椭圆的长轴和短轴平行与坐标轴。且变量对应的特征值越大,该变量分布的范围越分散,在二元高斯分布中,对应特征值大的变量在函数投影图像中对应的是椭圆的长轴。高维的高斯分布情况可以按照这个规律进行推广。
2、多元相关变量高斯分布

高斯DB for mysql 高斯分布_正态分布_40表示变量高斯DB for mysql 高斯分布_高斯DB for mysql_41的协方差。

  1. 高斯DB for mysql 高斯分布_数学基础_42时:
  2. 高斯DB for mysql 高斯分布_数学基础_43时:

 从上面2个图像中可以看出,变量之间具有相关关系时,与变量之间相互独立最大的区别是,投影面的椭圆长短轴不再平行与坐标轴。
 如果我们将坐标轴X1,X2旋转一下,与椭圆的长短轴平行,如下图所示:



高斯DB for mysql 高斯分布_数据分析_44


高斯DB for mysql 高斯分布_概率分布_45是相互独立的。上述过程称作为去相关性,这也是经典的降维方法主成分分析PCA的基础。以下是新坐标系的求解和原坐标系上的点在新坐标系下的坐标数学表达。
 根据协方差矩阵的特征方程求解协方差矩阵的单位正交特征向量(先求出特征向量,再进行正交化与单位化),
高斯DB for mysql 高斯分布_数学基础_46
  假设上式中高斯DB for mysql 高斯分布_数据分析_47已经被单位正交化,以二维高斯分布为例
高斯DB for mysql 高斯分布_数据分析_48
 新坐标系的坐标轴为高斯DB for mysql 高斯分布_数学基础_49高斯DB for mysql 高斯分布_数据分析_50


高斯DB for mysql 高斯分布_概率分布_51