参考文献:Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

简介

在第二章中将专门研究各种概率分布以及其关键特性。在这里引入对于连续变量(continous variables)来说最重要的概率分布之一:正太分布normal distribution)或者高斯分布Gaussian distribution)。在本章的其余部分以及本书中的大部分内容将广泛使用这种分布。

高斯分布

高斯分布的主要参数

单个实值变量python 高斯分布散点图 高斯分布实例_方差的情况下,高斯分布定义为如下公式(1.46):python 高斯分布散点图 高斯分布实例_方差_02

其主要是由两个参数进行控制:

  1. 平均值(mean)python 高斯分布散点图 高斯分布实例_算法_03
  2. 方差(variance)python 高斯分布散点图 高斯分布实例_机器学习_04

方差平方根得出的python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_05称为标准偏差standard deviation); 由精度precision)可由方差的倒数表示:python 高斯分布散点图 高斯分布实例_算法_06

高斯分布的有效概率密度

下图1.13展示了高斯分布Gaussian distribution

python 高斯分布散点图 高斯分布实例_机器学习_07


1.46满足了有效概率密度(valid probability density)的两个要求:

  1. 从公式1.46可以看出高斯分布满足如下条件(1.47):python 高斯分布散点图 高斯分布实例_算法_08
  2. 从1.46也可以看出**高斯分布是归一化(normalized)**的,因此高斯分布也满足如下条件(1.48):python 高斯分布散点图 高斯分布实例_算法_09

高斯分布下的数学期望

很容易可以找出在高斯分布下python 高斯分布散点图 高斯分布实例_方差的数学期望函数。特别是python 高斯分布散点图 高斯分布实例_方差的平均值可表示为如下公式(1.49),其中参数python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12表示python 高斯分布散点图 高斯分布实例_方差在分布下的平均值,其被称为均值mean):python 高斯分布散点图 高斯分布实例_算法_14

同理,对于python 高斯分布散点图 高斯分布实例_方差二阶求导可表示为如下公式(1.50):python 高斯分布散点图 高斯分布实例_机器学习_16

根据1.49 和 1.50 中展示的公式,python 高斯分布散点图 高斯分布实例_方差_17的方差可用如下等式展示:python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_18

因此,python 高斯分布散点图 高斯分布实例_概率分布_19称为方差参数。分布的最大值称为其众数(mode)。对于高斯函数来说,众数(mode)与均值(mean)一致

连续变量(continuous variables)的D维向量x(D-dimensional vector x)

连续变量的D维向量x上定义的高斯分布可由下式给出:python 高斯分布散点图 高斯分布实例_方差_20

其中 D维向量python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12被称为均值mean),D*D矩阵python 高斯分布散点图 高斯分布实例_方差_22被称为协方差covariance),python 高斯分布散点图 高斯分布实例_概率分布_23表示python 高斯分布散点图 高斯分布实例_方差_22行列式

将在第2.3节中详细研究多元高斯分布性质

高斯分布的似然函数(likelihood)

现在假设有一组观测数据python 高斯分布散点图 高斯分布实例_算法_25用来标注变量python 高斯分布散点图 高斯分布实例_方差N个观测值。请注意这里使用的是类型面type-facepython 高斯分布散点图 高斯分布实例_方差,请将其与将其与向量值vector-valued)变量python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_28中的单个观测值python 高斯分布散点图 高斯分布实例_方差区分开来

假设观测值与均值为python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12和方差为python 高斯分布散点图 高斯分布实例_概率分布_19是未知的高斯分布是互相独立的independent),现在想要从数据集中确定这些参数

同一分布中独立选出的数据点被称为独立且具有相同分布的数据点,通常缩写为i.i.d

两个独立事件的联合概率(joint probability)分别由每个事件的边际概率(marginal probability)的乘积给出。因为数据集python 高斯分布散点图 高斯分布实例_方差属于i.i.d,所以可以将给定python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12python 高斯分布散点图 高斯分布实例_概率分布_19的数据集概率写成如下公式(1.53)python 高斯分布散点图 高斯分布实例_机器学习_35

如上公式被视为是python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12python 高斯分布散点图 高斯分布实例_概率分布_19的函数,这就是高斯分布的似然函数likelihood function),在下图1.14中以图解的方式进行了解释。

python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_38


图1.14:

  1. 图中黑色点:一组数值{python 高斯分布散点图 高斯分布实例_方差_39}
  2. 图中蓝色点:数值(黑色点)映射在高斯分布上对应的值
  3. 似然函数:蓝色点的乘积
  4. 最大似然:涉及调整高斯分布中的均值python 高斯分布散点图 高斯分布实例_方差_40和方差python 高斯分布散点图 高斯分布实例_方差_41

高斯分布最大似然函数(maximum likelihood function)

使用观测数据集来确定概率分布参数的一个常见标准是找到使似然函数最大化的参数值。前面对概率论的讨论来看,使给定数据的参数的概率最大化似乎更自然,而不是使给定参数的数据的概率最大化。这两个标准是相关的,这将在曲线拟合curve fitting)的上下文中讨论。

在这里将通过使似然函数(1.53)最大化来确定高斯函数中未知的均值python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12和方差python 高斯分布散点图 高斯分布实例_概率分布_19。在实际函数推导和应用中,使似然函数的对数最大化更为方便,因为对数是其参数的单调递增函数,所以函数对数的最大化等价于函数本身的最大化。采用对数不仅简化了后续的数学分析,而且在数值上也有帮助,因为大量小概率的乘积很容易影响计算机的数值精度,所以可以通过计算对数概率之和来解决。

根据(1.46)和(1.53),对数似然函数(log likelihood function)可以写成如下公式(1.54):python 高斯分布散点图 高斯分布实例_概率分布_44

下面为对于均值python 高斯分布散点图 高斯分布实例_算法_03和方差python 高斯分布散点图 高斯分布实例_机器学习_04的最大似然解决方案

  1. 相对于均值python 高斯分布散点图 高斯分布实例_算法_03,能够获得最大似然解决方案如下公式(1.55):python 高斯分布散点图 高斯分布实例_机器学习_48这里的python 高斯分布散点图 高斯分布实例_方差_49为样本平均值(sample mean),即观测值{python 高斯分布散点图 高斯分布实例_方差_39}的平均值。
  2. 相对于方差python 高斯分布散点图 高斯分布实例_机器学习_04,能够获得最大似然解决方案如下公式(1.56):python 高斯分布散点图 高斯分布实例_方差_52这里的python 高斯分布散点图 高斯分布实例_方差_53为样本方差(sample variance),即通过测量python 高斯分布散点图 高斯分布实例_方差_49样本平均值得出。

请注意,对均值python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12和方差python 高斯分布散点图 高斯分布实例_概率分布_19可以执行联合最大化 joint maximization(1.54),但在高斯分布的情况下,均值python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12的解和方差python 高斯分布散点图 高斯分布实例_概率分布_19的解是分开的,因此可以首先计算(1.55),然后使用该结果计算(1.56)。

在本文的后续章节中,将重点介绍最大似然方法的局限性。在这里对于单变量高斯分布( univariate Gaussian distribution)的最大似然参数设置的解决方案中给出问题的指示。 特别是,将证明最大似然方法会系统地低估分布的方差。这一现象的一个示例被称为偏差(bias),与**多项式曲线(polynomial curve fitting)拟合中遇到的过拟合(over-fitting)**问题有关。

首先注意到,最大似然解python 高斯分布散点图 高斯分布实例_方差_59python 高斯分布散点图 高斯分布实例_概率分布_60是数据集值为python 高斯分布散点图 高斯分布实例_概率分布_61的函数。考虑到相对于数据集值的这些数量的期望值,这些值本身来自具有参数python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_12python 高斯分布散点图 高斯分布实例_概率分布_19的高斯分布。 直接表明:(1.57)python 高斯分布散点图 高斯分布实例_算法_64 (1.58) python 高斯分布散点图 高斯分布实例_概率分布_65

因此,平均而言,最大似然估计将获得正确的均值,但会将真实方差低估python 高斯分布散点图 高斯分布实例_机器学习_66倍。 下图1.15给出了此结果的直观效果。

python 高斯分布散点图 高斯分布实例_机器学习_67

  1. 绿色曲线:真实的高斯分布
  2. 红色曲线:通过1.55得出得最大似然结果你和数据集后得的高斯分布
  3. 蓝色点: 每个数据点均使用最大似然结果(1.55)和(1.56)的两个数据点组成
  4. 取平均值,该平均值是正确的,但是由于方差是相对于样本平均值而不是相对于真实平均值进行衡量的,因此系统地低估了方差

从(1.58)可以得出下方差参数(1.59)的估计是无偏(unbiased)的python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_68

在第10.1.3节中,将看到采用贝叶斯方法时该结果如何自动产生。

请注意,随着数据点数量N的增加,最大似然解的偏差变得不那么重要,并且在极限python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_69方差的最大似然解等于生成数据的分布的真实方差。 实际上,对于小N以外的任何事物,这种偏差都不会被证明是一个严重的问题。 但是,在本书中,将对具有许多参数的更复杂的模型感兴趣,对于这些模型,与最大似然相关的偏差问题将更加严重。 实际上,正如将要看到的,最大似然性的偏差问题是我们在多项式曲线拟合的背景下较早遇到的过拟合问题(over-fitting)的根源

总结

高斯分布:

  1. 定义:python 高斯分布散点图 高斯分布实例_方差_70
  2. 重要参数:
    a. 平均值(mean)python 高斯分布散点图 高斯分布实例_算法_03
    b. 方差(variance)python 高斯分布散点图 高斯分布实例_机器学习_04 ->标准偏差python 高斯分布散点图 高斯分布实例_机器学习_73
    c. 精度(precision): python 高斯分布散点图 高斯分布实例_算法_74

高斯分布的有效概率密度

  1. 归一化
  2. 满足两个条件:
    a. python 高斯分布散点图 高斯分布实例_方差_75
    b. python 高斯分布散点图 高斯分布实例_概率分布_76

高斯分布下的数学期望

  1. 均值mean):python 高斯分布散点图 高斯分布实例_算法_14
  2. 二阶求导:python 高斯分布散点图 高斯分布实例_机器学习_16
  3. python 高斯分布散点图 高斯分布实例_方差_79的方差python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_18
  4. 众数(mode)与均值(mean)一致

连续变量的D维向量x上定义的高斯分布可由下式给出:python 高斯分布散点图 高斯分布实例_方差_81

高斯分布的似然函数(likelihood)

  1. 观测值与均值为python 高斯分布散点图 高斯分布实例_算法_03和方差为python 高斯分布散点图 高斯分布实例_机器学习_04是未知的高斯分布是互相独立的independent
  2. 同一分布中独立选出的数据点 -> i.i.d独立且具有相同分布的数据点
  3. python 高斯分布散点图 高斯分布实例_机器学习_35

高斯分布最大似然函数(maximum likelihood function)

  1. 找到使似然函数最大化的参数值 ->取对数
  2. 似然函数的对数:python 高斯分布散点图 高斯分布实例_概率分布_44
  3. 均值python 高斯分布散点图 高斯分布实例_算法_03python 高斯分布散点图 高斯分布实例_方差_87
  4. 方差python 高斯分布散点图 高斯分布实例_机器学习_04python 高斯分布散点图 高斯分布实例_机器学习_89
  5. 均值python 高斯分布散点图 高斯分布实例_算法_03的解和方差python 高斯分布散点图 高斯分布实例_机器学习_04的解是分开的
  6. 偏差:最大似然方法会系统地低估分布的方差 -> 过拟合(over-fitting)->将真实方差低估python 高斯分布散点图 高斯分布实例_机器学习_92
  7. 无偏(unbiased)的方差参数估计:python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_68
  8. 数量N的增加,最大似然解的偏差变得不那么重要; 极限python 高斯分布散点图 高斯分布实例_python 高斯分布散点图_69中,方差的最大似然解等于生成数据的分布的真实方差