python 高斯分布散点图高斯分布实例

转载

mob64ca14038b36 2023-11-16 15:36:31

文章标签 python 高斯分布散点图机器学习算法方差概率分布 文章分类 Python 后端开发

参考文献：Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

简介

在第二章中将专门研究各种概率分布以及其关键特性。在这里引入对于连续变量（continous variables）来说最重要的概率分布之一：正太分布（normal distribution）或者高斯分布（Gaussian distribution）。在本章的其余部分以及本书中的大部分内容将广泛使用这种分布。

高斯分布

高斯分布的主要参数

在单个实值变量 $python 高斯分布散点图高斯分布实例_方差$ 的情况下，高斯分布定义为如下公式(1.46)： $python 高斯分布散点图高斯分布实例_方差_02$

其主要是由两个参数进行控制：

平均值(mean)： $python 高斯分布散点图高斯分布实例_算法_03$
方差(variance)： $python 高斯分布散点图高斯分布实例_机器学习_04$

方差平方根得出的 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_05$ 称为标准偏差（standard deviation）；由精度（precision）可由方差的倒数表示： $python 高斯分布散点图高斯分布实例_算法_06$ 。

高斯分布的有效概率密度

下图1.13展示了高斯分布（Gaussian distribution）

python 高斯分布散点图高斯分布实例_机器学习_07

1.46满足了有效概率密度（valid probability density）的两个要求：

从公式1.46可以看出高斯分布满足如下条件（1.47）： $python 高斯分布散点图高斯分布实例_算法_08$
从1.46也可以看出**高斯分布是归一化（normalized）**的，因此高斯分布也满足如下条件（1.48）： $python 高斯分布散点图高斯分布实例_算法_09$

高斯分布下的数学期望

很容易可以找出在高斯分布下 $python 高斯分布散点图高斯分布实例_方差$ 的数学期望函数。特别是 $python 高斯分布散点图高斯分布实例_方差$ 的平均值可表示为如下公式（1.49）,其中参数 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 表示 $python 高斯分布散点图高斯分布实例_方差$ 在分布下的平均值，其被称为均值（mean）： $python 高斯分布散点图高斯分布实例_算法_14$

同理，对于 $python 高斯分布散点图高斯分布实例_方差$ 的二阶求导可表示为如下公式（1.50）： $python 高斯分布散点图高斯分布实例_机器学习_16$

根据1.49 和 1.50 中展示的公式， $python 高斯分布散点图高斯分布实例_方差_17$ 的方差可用如下等式展示： $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_18$

因此， $python 高斯分布散点图高斯分布实例_概率分布_19$ 称为方差参数。分布的最大值称为其众数（mode）。对于高斯函数来说，众数（mode）与均值（mean）一致。

连续变量（continuous variables）的D维向量x（D-dimensional vector x）

连续变量的D维向量x上定义的高斯分布可由下式给出： $python 高斯分布散点图高斯分布实例_方差_20$

其中 D维向量 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 被称为均值（mean），D*D矩阵 $python 高斯分布散点图高斯分布实例_方差_22$ 被称为协方差（covariance）， $python 高斯分布散点图高斯分布实例_概率分布_23$ 表示 $python 高斯分布散点图高斯分布实例_方差_22$ 的行列式。

将在第2.3节中详细研究多元高斯分布的性质

高斯分布的似然函数（likelihood）

现在假设有一组观测数据 $python 高斯分布散点图高斯分布实例_算法_25$ 用来标注变量 $python 高斯分布散点图高斯分布实例_方差$ 的N个观测值。请注意这里使用的是类型面（type-face） $python 高斯分布散点图高斯分布实例_方差$ ，请将其与将其与向量值（vector-valued）变量 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_28$ 中的单个观测值 $python 高斯分布散点图高斯分布实例_方差$ 区分开来

假设观测值与均值为 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和方差为 $python 高斯分布散点图高斯分布实例_概率分布_19$ 是未知的高斯分布是互相独立的（independent），现在想要从数据集中确定这些参数。

从同一分布中独立选出的数据点被称为独立且具有相同分布的数据点，通常缩写为i.i.d。

两个独立事件的联合概率（joint probability）分别由每个事件的边际概率（marginal probability）的乘积给出。因为数据集 $python 高斯分布散点图高斯分布实例_方差$ 属于i.i.d，所以可以将给定 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和 $python 高斯分布散点图高斯分布实例_概率分布_19$ 的数据集概率写成如下公式（1.53） $python 高斯分布散点图高斯分布实例_机器学习_35$

如上公式被视为是 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和 $python 高斯分布散点图高斯分布实例_概率分布_19$ 的函数，这就是高斯分布的似然函数（likelihood function），在下图1.14中以图解的方式进行了解释。

python 高斯分布散点图高斯分布实例_python 高斯分布散点图_38

图1.14：

图中黑色点：一组数值{ $python 高斯分布散点图高斯分布实例_方差_39$ }
图中蓝色点：数值（黑色点）映射在高斯分布上对应的值
似然函数：蓝色点的乘积
最大似然：涉及调整高斯分布中的均值 $python 高斯分布散点图高斯分布实例_方差_40$ 和方差 $python 高斯分布散点图高斯分布实例_方差_41$

高斯分布最大似然函数（maximum likelihood function）

使用观测数据集来确定概率分布参数的一个常见标准是找到使似然函数最大化的参数值。前面对概率论的讨论来看，使给定数据的参数的概率最大化似乎更自然，而不是使给定参数的数据的概率最大化。这两个标准是相关的，这将在曲线拟合（curve fitting）的上下文中讨论。

在这里将通过使似然函数（1.53）最大化来确定高斯函数中未知的均值 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和方差 $python 高斯分布散点图高斯分布实例_概率分布_19$ 。在实际函数推导和应用中，使似然函数的对数最大化更为方便，因为对数是其参数的单调递增函数，所以函数对数的最大化等价于函数本身的最大化。采用对数不仅简化了后续的数学分析，而且在数值上也有帮助，因为大量小概率的乘积很容易影响计算机的数值精度，所以可以通过计算对数概率之和来解决。

根据（1.46）和（1.53），对数似然函数（log likelihood function）可以写成如下公式（1.54）： $python 高斯分布散点图高斯分布实例_概率分布_44$

下面为对于均值 $python 高斯分布散点图高斯分布实例_算法_03$ 和方差 $python 高斯分布散点图高斯分布实例_机器学习_04$ 的最大似然解决方案：

相对于均值 $python 高斯分布散点图高斯分布实例_算法_03$ ，能够获得最大似然解决方案如下公式（1.55）： $python 高斯分布散点图高斯分布实例_机器学习_48$ 这里的 $python 高斯分布散点图高斯分布实例_方差_49$ 为样本平均值（sample mean），即观测值{ $python 高斯分布散点图高斯分布实例_方差_39$ }的平均值。
相对于方差 $python 高斯分布散点图高斯分布实例_机器学习_04$ ，能够获得最大似然解决方案如下公式（1.56）： $python 高斯分布散点图高斯分布实例_方差_52$ 这里的 $python 高斯分布散点图高斯分布实例_方差_53$ 为样本方差（sample variance），即通过测量 $python 高斯分布散点图高斯分布实例_方差_49$ 样本平均值得出。

请注意，对均值 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和方差 $python 高斯分布散点图高斯分布实例_概率分布_19$ 可以执行联合最大化 joint maximization（1.54），但在高斯分布的情况下，均值 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 的解和方差 $python 高斯分布散点图高斯分布实例_概率分布_19$ 的解是分开的，因此可以首先计算（1.55），然后使用该结果计算（1.56）。

在本文的后续章节中，将重点介绍最大似然方法的局限性。在这里对于单变量高斯分布（ univariate Gaussian distribution）的最大似然参数设置的解决方案中给出问题的指示。特别是，将证明最大似然方法会系统地低估分布的方差。这一现象的一个示例被称为偏差（bias），与**多项式曲线（polynomial curve fitting）拟合中遇到的过拟合（over-fitting）**问题有关。

首先注意到，最大似然解 $python 高斯分布散点图高斯分布实例_方差_59$ 和 $python 高斯分布散点图高斯分布实例_概率分布_60$ 是数据集值为 $python 高斯分布散点图高斯分布实例_概率分布_61$ 的函数。考虑到相对于数据集值的这些数量的期望值，这些值本身来自具有参数 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_12$ 和 $python 高斯分布散点图高斯分布实例_概率分布_19$ 的高斯分布。直接表明：（1.57） $python 高斯分布散点图高斯分布实例_算法_64$ (1.58) $python 高斯分布散点图高斯分布实例_概率分布_65$

因此，平均而言，最大似然估计将获得正确的均值，但会将真实方差低估 $python 高斯分布散点图高斯分布实例_机器学习_66$ 倍。下图1.15给出了此结果的直观效果。

python 高斯分布散点图高斯分布实例_机器学习_67

绿色曲线：真实的高斯分布
红色曲线：通过1.55得出得最大似然结果你和数据集后得的高斯分布
蓝色点：每个数据点均使用最大似然结果（1.55）和（1.56）的两个数据点组成
取平均值，该平均值是正确的，但是由于方差是相对于样本平均值而不是相对于真实平均值进行衡量的，因此系统地低估了方差

从（1.58）可以得出下方差参数（1.59）的估计是无偏(unbiased)的： $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_68$

在第10.1.3节中，将看到采用贝叶斯方法时该结果如何自动产生。

请注意，随着数据点数量N的增加，最大似然解的偏差变得不那么重要，并且在极限 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_69$ 中，方差的最大似然解等于生成数据的分布的真实方差。实际上，对于小N以外的任何事物，这种偏差都不会被证明是一个严重的问题。但是，在本书中，将对具有许多参数的更复杂的模型感兴趣，对于这些模型，与最大似然相关的偏差问题将更加严重。实际上，正如将要看到的，最大似然性的偏差问题是我们在多项式曲线拟合的背景下较早遇到的过拟合问题(over-fitting)的根源。

总结

高斯分布：

定义： $python 高斯分布散点图高斯分布实例_方差_70$
重要参数：
a. 平均值(mean)： $python 高斯分布散点图高斯分布实例_算法_03$
b. 方差(variance)： $python 高斯分布散点图高斯分布实例_机器学习_04$ ->标准偏差 $python 高斯分布散点图高斯分布实例_机器学习_73$
c. 精度(precision): $python 高斯分布散点图高斯分布实例_算法_74$

高斯分布的有效概率密度

归一化
满足两个条件：
a. $python 高斯分布散点图高斯分布实例_方差_75$
b. $python 高斯分布散点图高斯分布实例_概率分布_76$

高斯分布下的数学期望

均值（mean）： $python 高斯分布散点图高斯分布实例_算法_14$
二阶求导： $python 高斯分布散点图高斯分布实例_机器学习_16$
$python 高斯分布散点图高斯分布实例_方差_79$ 的方差： $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_18$
众数（mode）与均值（mean）一致

连续变量的D维向量x上定义的高斯分布可由下式给出： $python 高斯分布散点图高斯分布实例_方差_81$

高斯分布的似然函数（likelihood）

观测值与均值为 $python 高斯分布散点图高斯分布实例_算法_03$ 和方差为 $python 高斯分布散点图高斯分布实例_机器学习_04$ 是未知的高斯分布是互相独立的（independent）
同一分布中独立选出的数据点 -> i.i.d独立且具有相同分布的数据点
$python 高斯分布散点图高斯分布实例_机器学习_35$

高斯分布最大似然函数（maximum likelihood function）

找到使似然函数最大化的参数值 ->取对数
似然函数的对数: $python 高斯分布散点图高斯分布实例_概率分布_44$
均值 $python 高斯分布散点图高斯分布实例_算法_03$ ： $python 高斯分布散点图高斯分布实例_方差_87$
方差 $python 高斯分布散点图高斯分布实例_机器学习_04$ ： $python 高斯分布散点图高斯分布实例_机器学习_89$
均值 $python 高斯分布散点图高斯分布实例_算法_03$ 的解和方差 $python 高斯分布散点图高斯分布实例_机器学习_04$ 的解是分开的
偏差：最大似然方法会系统地低估分布的方差 -> 过拟合（over-fitting）->将真实方差低估 $python 高斯分布散点图高斯分布实例_机器学习_92$ 倍
无偏(unbiased)的方差参数估计: $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_68$
数量N的增加，最大似然解的偏差变得不那么重要; 极限 $python 高斯分布散点图高斯分布实例_python 高斯分布散点图_69$ 中，方差的最大似然解等于生成数据的分布的真实方差

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 识别插入u盘 win python u盘版

下一篇：android 图片显示不全添加 android图片布局

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯