第2章 Probability Distribution
- 2.2 Multinomial Variables
- P74 两变量的条件期望与条件方差
- 2.3 The Gaussian Distribution
- P86 高斯分布的参数辨识
- P94 序列估计
- Robbins-Monro 算法
- P99 高斯分布参数的贝叶斯估计
- 一般性序列估计
- 一维高斯分布均值的后验推断
- 一维高斯分布方差的后验推断 Gamma分布
- 一维高斯分布均值和方差联合的后验推断 Gaussian-gamma分布
- 高维高斯分布均值的后验推断
- 高维高斯分布方差的后验推断 Wishart分布
- 高维高斯分布均值和方差联合的后验推断 Gaussian-Wishart分布
- P103 学生t分布
- P107 von Mises 分布
- 2.4 The Exponential Family
- P113 一般形式
- P115 参数估计与充分统计量
- P117 共轭先验
- P117 无信息先验
- 尺度参数的无信息先验分布
- 2.5 无参数概率密度估计
- P122 核密度估计和近邻方法
- P125 kNN算法的一种无参解释
2.2 Multinomial Variables
P74 两变量的条件期望与条件方差
由Exercise2.8:考虑两个变量和,联合概率分布为. 那么
这里表示在条件分布下,的期望。条件方差记号类似。
所以可知
注意二式的右侧,第一项为的后验分布方差的期望,第二项为后验分布期望的方差。
其中,,所以。也就是说观测到数据后,的不确定性会减小。不过这只对平均而言成立。可以构造特殊的数据集,并让的后验分布的方差变大。
(疑问:这好像并不能证明越大,不确定性越小。这里猜测可以用类似方法证明,写出两个数据集和,放到两侧,放到右边,构造一个类似上述的式子?有空试一波!)
2.3 The Gaussian Distribution
P86 高斯分布的参数辨识
高斯分布在给定形式后,如何看出参数和方差,直接关注指数表达式即可:
只要写成这样的形式,就能直接从二次项中读出,从一次项读出.
用这样的方法,2.3.1节写出当全变量为高斯分布时的条件分布
2.3.2节给出了边缘分布
2.3.3节给出了线性高斯模型的边缘分布和条件分布,即
其中被称为精度矩阵Precision Matrix)
线性高斯模型的结果仍然是高斯分布
P94 序列估计
假定样本是一个一个序列观测的,记第次观测后,均值估计为,则易知
上式可看作是对的不断修正。这里考虑一个一般化的序列学习算法:
Robbins-Monro 算法
对于一对随机变量和,并假定. 希望通过序列数据找到根满足.
假定的条件方差有限,即. 不失一般性,我们认为时,;时,. 则
其中是给定下的观测。
表示正数序列满足
上式会以概率为1收敛到根。 第一项确保了修正项会收敛到一个有限值,第二项确保了不会对根欠收敛,第三项确保了累积噪声的方差有限,所以不会破坏收敛。(这个算法在强化学习的摇臂赌博机中也用到了)考虑一般的最大似然问题,参数是一个驻点,满足
当,上式即
注意这个形式,和Robbins-Monro的要求是一样的,可以得到
可以看作是其中的。
对于高斯分布的均值估计,即,取,则得到一致的更新公式。
P99 高斯分布参数的贝叶斯估计
一般性序列估计
上式括号中的项可以看作是读入到第个数据之后,得到的参数分布,可以看作是第次的先验分布。
一维高斯分布均值的后验推断
如果已知方差,不知道均值,假定,,那么由
可得,其中
是中样本数,.
这个式子很有趣
- 当时,等同于先验分布
- 当时,等同于极大似然
- 随着增大时,方差越来越小,越来越确定
- 当时,等同于最大似然,方差很大意味着先验没有提供什么稳定的信息
一维高斯分布方差的后验推断 Gamma分布
如果已知均值,不知道方差,采用精确度进行表示。高斯分布的方差后验为:
注意,这种写法下,对应的先验共轭分布其实是Gamma分布!
如果记先验为,则对应的后验为
从中可以辨识出分布为
- 当增大时,增大,实际上,可以把解释成是已经有了的个先验伪观测,解释成是这个先验观测具有方差
- 如果直接估计,而不是,那么得到对应先验分布是Inverse Gamma 分布。
一维高斯分布均值和方差联合的后验推断 Gaussian-gamma分布
如果方差和均值都不知道,那么的连乘可以写成如下形式:
这也即共轭先验的形式,该分布叫做normal-gamma或Gaussian-gamma分布
高维高斯分布均值的后验推断
如果已知方差,不知道均值,这种情况下,均值仍然是高斯分布。
高维高斯分布方差的后验推断 Wishart分布
如果已知均值,不知道方差,如果记精确度矩阵,那么共轭先验分布为Wishart分布,这种分布可以看作是Gamma分布的高维推广,就类似于Beta分布和Dirichlet分布的关系。表达式为
其中是自由度,为归一化因子
如果直接对估计,而不是,则得到对应的共轭先验为Inverse Wishart分布
高维高斯分布均值和方差联合的后验推断 Gaussian-Wishart分布
如果方差和均值都不知道,那么共轭先验的形式为:
称之为Normal-Wishart或Gaussian-Wishart分布。
P103 学生t分布
如果一维高斯分布精确度先验为Gamma分布,均值已知,则的边缘分布为
如果记,则上式化学生t分布
有时称为t分布的precision,称为自由度。时,退化为Cauchy distribution; 时,成为高斯分布.
- 相比于高斯分布,学生t分布的一个优点抗离群点robust,学生t分布的尾巴比较厚,没有高斯分布那么敏感。另外,如果一组数据,高斯分布拟合得好,学生t分也能拟合好,因为高斯分布是学生t分布的一个特例。如图所示
如果再另,则学生t分布又可写为
通过该形式,可以扩展出高维学生t分布
其中是维度,
P107 von Mises 分布
一个二维高斯分布,关注其在以原点为圆心的单位圆下的条件概率分布,角度的分布为von Mises分布(循环正态分布)
其中,而
是归一化因子。
- 当变大时,von Mises分布近似高斯分布
2.4 The Exponential Family
P113 一般形式
其中可以是一维或多维,也可以是离散或连续。叫做natural parameters,可看作归一化因子
实际上,本章中上述讨论过的概率分布都是指数族分布的特例。
P115 参数估计与充分统计量
考虑一般参数估计问题,最大似然得到
对数求导后得到
- 注意这里足够计算,所以被称为充分统计量。例如对于Bernoulli分布,仅需要保存的和,对于高斯分布,需要保存各自的和。
- 当时,右侧变为.
P117 共轭先验
其中是一个归一化因子,和中形式一样。易得后验
其中被看作是先验伪观测数,每一次观测的统计量为
P117 无信息先验
无信息先验这个东西稍微抽象,偏贝叶斯思维。解决的问题是在无先验时如何选择先验,选择的思想是先验要对后验的影响最小。
如果没有什么信息,我们假定先验是均匀分布,这么做存在两个困难:
- 在无限连续数域上发散。称之为反常先验分布。但如果后验分布是正常的,那么可以使用这样的分布(称之为广义先验分布)。例如高斯分布,如果假定均值先验是均匀分布,只要观测到一个数据点,那么后验就正常。
- 如果另一个参数是该参数的非线性变换,那么将不再是均匀分布
尺度参数的无信息先验分布
如果一个分布形式为
其中,已经归一化。
考虑其中. 那么
和的函数形式相同,所以和应该有相同的先验分布,如果的先验分布为,那么
取,解得,取,则先验分布为.
这样的一个例子是高斯分布中的标准差
还有一种位置参数的无信息先验分布,可以看原书,推导出的结果是均匀分布。
2.5 无参数概率密度估计
P122 核密度估计和近邻方法
这种估计方法不明确给出概率分布的表达式,而是通过数据进行感知。柱状图其实就是一种无参数的概率密度估计方法。
另外一种常用的估计方法是观察的小邻域。记为总样本数,为小邻域内样本数,如果小邻域足够小,认为小邻域内概率不变,则有
这里如果固定,则该方法为核密度估计;如果固定,则为近邻估计,即找以为中心包含个点的最小超球,当作.
P125 kNN算法的一种无参解释
在近邻方法当中,如果有多个类,则对于第类,记样本数为,小邻域内有样本数,则
则后验为
这样,kNN分类就可以解释为是近邻方法中,后验概率最大的类别。
- 1-NN分类器有一个很有趣的性质:当时,分类错误率不会超过贝叶斯最优分类器错误率的两倍
- 最优分类器可以理解为是看到了真实后验分布
- (我记得这个性质是要求概率连续的)
- 可以参考西瓜书P226
参考文献:
[1] Christopher M. Bishop. Pattern Recognition and Machine Learning. 2006