机器学习理论|频率派和贝叶斯派对比

一、总结

一句话总结:

(A)、对于一些问题,比如类似从盒子中抽取小球的经典问题,我们可以通过多次实验的方式来计算频率,并进而估算概率,这种思想是典型的Frequentist的思想;
(B)、而对于另一些问题,如南极大陆在本世纪末完全融化的可能性,这类事件其不可能被重复出现,因为无法使用频率统计的思想来进行概率的估计,但是此类事件可以通过一种优雅的、十分广泛的概率的贝叶斯解释来进行估计概率。

 

 

1、机器学习领域两个流派?

在机器学习领域分为两个流派,分别是贝叶斯派和频率派。两种学派所基于的理论背景不同,应用场景也不尽相同。

 

 

2、频率派和神经网络思想的关系?

在频率派中,w被认为是一个固定的数值,其数值的计算是通过对于训练集的学习和估计。这个思想即神经网络中常用的:建立模型,选择损失函数,优化目标函数,将损失降到可以度量范围内的最小值,从而得到对w参数的估计。

$$p(w|D)=\frac{p(D|w)p(w)}{p(D)} $$

 

 

 

二、机器学习理论|频率派和贝叶斯派对比

 

Frequentist VS Bayesian

在机器学习领域分为两个流派,分别是贝叶斯派和频率派。两种学派所基于的理论背景不同,应用场景也不尽相同。本文就以阅读PRML为背景,对学习所悟进行总结。

对于一些问题,比如类似从盒子中抽取小球的经典问题,我们可以通过多次实验的方式来计算频率,并进而估算概率,这种思想是典型的Frequentist的思想;而对于另一些问题,如南极大陆在本世纪末完全融化的可能性,这类事件其不可能被重复出现,因为无法使用频率统计的思想来进行概率的估计,但是此类事件可以通过一种优雅的、十分广泛的概率的贝叶斯解释来进行估计概率。

贝叶斯定理,即:


\[p(w|D)=\frac{p(D|w)p(w)}{p(D)}\]


如上式所述,我们将根据对于数据集D的观测,并以后验概率p(D|w)的形式来估计参数w的不确定度。其中,p(D|w)是关于w的似然函数(Likelihood),p(w)是关于w的先验概率。

频率派贝叶斯派两种理论派别中,似然然函数p(D|w)是问题的中心所在,但是对于其被运用的方式方面有着本质的区别。

频率派中,w被认为是一个固定的数值,其数值的计算是通过对于训练集的学习和估计。这个思想即神经网络中常用的:建立模型,选择损失函数,优化目标函数,将损失降到可以度量范围内的最小值,从而得到对w参数的估计。

而在贝叶斯派看来,只有通过观察w的概率分布,才能表示参数的不确定度,即对于w的数值是不确定的。

频率派中一个被广泛使用的用来估计的工具是;最大化似然函数。

贝叶斯派中的一个优势在于对于先验知识的包含是逐步上升的。比如,对一枚质地均匀的硬币进行三次投掷,结果都是反面,则在贝叶斯派的最大化似然函数看来,反面的概率是1. 而对于贝叶斯派来说,由于具有先验知识(质地均匀,先验概率为1/2),其运算结果将不会像频率派一样极端。

对于B还是F一直以来都会有很大的争议和争辩。对于贝叶斯派来说,一个普遍的批评在于先验分布总是基于数学方便,而不是基于先验的确信度。即B方法选择的先验知识可能并非是一个独立的事件,因此,在B方法中,如果基于差点的先验选择可能会对于一个较差的结果一个较高的可信度。但F方法则不存在该问题,因为F可以使用交叉验证的方法减少因为选择先验(训练集)而对于模型的影响。

PRML强烈倾向于B方法。

近年来也有一些可以用于大量数据集的B方法被提出。