参考文献:Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/
简介
在第二章中将专门研究各种概率分布以及其关键特性。在这里引入对于连续变量(continous variables)来说最重要的概率分布之一:正太分布(normal distribution)或者高斯分布(Gaussian distribution)。在本章的其余部分以及本书中的大部分内容将广泛使用这种分布。
高斯分布
高斯分布的主要参数
在单个实值变量的情况下,高斯分布定义为如下公式(1.46):
其主要是由两个参数进行控制:
- 平均值(mean):
- 方差(variance):
方差平方根得出的称为标准偏差(standard deviation); 由精度(precision)可由方差的倒数表示:。
高斯分布的有效概率密度
下图1.13展示了高斯分布(Gaussian distribution)
1.46满足了有效概率密度(valid probability density)的两个要求:
- 从公式1.46可以看出高斯分布满足如下条件(1.47):
- 从1.46也可以看出**高斯分布是归一化(normalized)**的,因此高斯分布也满足如下条件(1.48):
高斯分布下的数学期望
很容易可以找出在高斯分布下的数学期望函数。特别是的平均值可表示为如下公式(1.49),其中参数表示在分布下的平均值,其被称为均值(mean):
同理,对于的二阶求导可表示为如下公式(1.50):
根据1.49 和 1.50 中展示的公式,的方差可用如下等式展示:
因此,称为方差参数。分布的最大值称为其众数(mode)。对于高斯函数来说,众数(mode)与均值(mean)一致。
连续变量(continuous variables)的D维向量x(D-dimensional vector x)
连续变量的D维向量x上定义的高斯分布可由下式给出:
其中 D维向量被称为均值(mean),D*D矩阵被称为协方差(covariance),表示的行列式。
将在第2.3节中详细研究多元高斯分布的性质
高斯分布的似然函数(likelihood)
现在假设有一组观测数据用来标注变量的N个观测值。请注意这里使用的是类型面(type-face),请将其与将其与向量值(vector-valued)变量中的单个观测值区分开来
假设观测值与均值为和方差为是未知的高斯分布是互相独立的(independent),现在想要从数据集中确定这些参数。
从同一分布中独立选出的数据点被称为独立且具有相同分布的数据点,通常缩写为i.i.d。
两个独立事件的联合概率(joint probability)分别由每个事件的边际概率(marginal probability)的乘积给出。因为数据集属于i.i.d,所以可以将给定和的数据集概率写成如下公式(1.53)
如上公式被视为是和的函数,这就是高斯分布的似然函数(likelihood function),在下图1.14中以图解的方式进行了解释。
图1.14:
- 图中黑色点:一组数值{}
- 图中蓝色点:数值(黑色点)映射在高斯分布上对应的值
- 似然函数:蓝色点的乘积
- 最大似然:涉及调整高斯分布中的均值和方差
高斯分布最大似然函数(maximum likelihood function)
使用观测数据集来确定概率分布参数的一个常见标准是找到使似然函数最大化的参数值。前面对概率论的讨论来看,使给定数据的参数的概率最大化似乎更自然,而不是使给定参数的数据的概率最大化。这两个标准是相关的,这将在曲线拟合(curve fitting)的上下文中讨论。
在这里将通过使似然函数(1.53)最大化来确定高斯函数中未知的均值和方差。在实际函数推导和应用中,使似然函数的对数最大化更为方便,因为对数是其参数的单调递增函数,所以函数对数的最大化等价于函数本身的最大化。采用对数不仅简化了后续的数学分析,而且在数值上也有帮助,因为大量小概率的乘积很容易影响计算机的数值精度,所以可以通过计算对数概率之和来解决。
根据(1.46)和(1.53),对数似然函数(log likelihood function)可以写成如下公式(1.54):
下面为对于均值和方差的最大似然解决方案:
- 相对于均值,能够获得最大似然解决方案如下公式(1.55):这里的为样本平均值(sample mean),即观测值{}的平均值。
- 相对于方差,能够获得最大似然解决方案如下公式(1.56):这里的为样本方差(sample variance),即通过测量样本平均值得出。
请注意,对均值和方差可以执行联合最大化 joint maximization(1.54),但在高斯分布的情况下,均值的解和方差的解是分开的,因此可以首先计算(1.55),然后使用该结果计算(1.56)。
在本文的后续章节中,将重点介绍最大似然方法的局限性。在这里对于单变量高斯分布( univariate Gaussian distribution)的最大似然参数设置的解决方案中给出问题的指示。 特别是,将证明最大似然方法会系统地低估分布的方差。这一现象的一个示例被称为偏差(bias),与**多项式曲线(polynomial curve fitting)拟合中遇到的过拟合(over-fitting)**问题有关。
首先注意到,最大似然解和是数据集值为的函数。考虑到相对于数据集值的这些数量的期望值,这些值本身来自具有参数和的高斯分布。 直接表明:(1.57) (1.58)
因此,平均而言,最大似然估计将获得正确的均值,但会将真实方差低估倍。 下图1.15给出了此结果的直观效果。
- 绿色曲线:真实的高斯分布
- 红色曲线:通过1.55得出得最大似然结果你和数据集后得的高斯分布
- 蓝色点: 每个数据点均使用最大似然结果(1.55)和(1.56)的两个数据点组成
- 取平均值,该平均值是正确的,但是由于方差是相对于样本平均值而不是相对于真实平均值进行衡量的,因此系统地低估了方差
从(1.58)可以得出下方差参数(1.59)的估计是无偏(unbiased)的:
在第10.1.3节中,将看到采用贝叶斯方法时该结果如何自动产生。
请注意,随着数据点数量N的增加,最大似然解的偏差变得不那么重要,并且在极限中,方差的最大似然解等于生成数据的分布的真实方差。 实际上,对于小N以外的任何事物,这种偏差都不会被证明是一个严重的问题。 但是,在本书中,将对具有许多参数的更复杂的模型感兴趣,对于这些模型,与最大似然相关的偏差问题将更加严重。 实际上,正如将要看到的,最大似然性的偏差问题是我们在多项式曲线拟合的背景下较早遇到的过拟合问题(over-fitting)的根源。
总结
高斯分布:
- 定义:
- 重要参数:
a. 平均值(mean):
b. 方差(variance): ->标准偏差
c. 精度(precision):
高斯分布的有效概率密度
- 归一化
- 满足两个条件:
a.
b.
高斯分布下的数学期望
- 均值(mean):
- 二阶求导:
- 的方差:
- 众数(mode)与均值(mean)一致
连续变量的D维向量x上定义的高斯分布可由下式给出:
高斯分布的似然函数(likelihood)
- 观测值与均值为和方差为是未知的高斯分布是互相独立的(independent)
- 同一分布中独立选出的数据点 -> i.i.d独立且具有相同分布的数据点
高斯分布最大似然函数(maximum likelihood function)
- 找到使似然函数最大化的参数值 ->取对数
- 似然函数的对数:
- 均值:
- 方差:
- 均值的解和方差的解是分开的
- 偏差:最大似然方法会系统地低估分布的方差 -> 过拟合(over-fitting)->将真实方差低估倍
- 无偏(unbiased)的方差参数估计:
- 数量N的增加,最大似然解的偏差变得不那么重要; 极限中,方差的最大似然解等于生成数据的分布的真实方差