频率派vs贝叶斯派 —— MLE(最大似然估计) vs MAP(最大后验估计)
1. 频率派 vs 贝叶斯派
在概率估计或者机器学习里的参数估计上,有两个方法,MLE
(最大似然估计) 和MAP
(最大后验估计),其实代表了概率论里的两个派别,频率派和贝叶斯派
往大的说,这两个派别代表了不同的世界观。频率派认为参数是客观存在不会改变的,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为不可能做完整的实验去确定,因此参数也可以有分布。
往小处说,频率派最常关心的是似然函数,他们认为直接用样本去计算出的概率就是真实的,而贝叶斯派最常关心的是后验分布,他们认为样本只是用来修正经验观点。
贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法 (如MCMC
)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
2. MLE vs MAP
概率论里的参数估计两种方法MLE
和MAP
就代表了频率派和贝叶斯派的观点。
关于MLE
前面研究过
简单来说,MLE
就是用现有样本直接去推导使这些样本出现概率最大的分布参数,因为概率派认为这个分布参数是固有的。
而MAP
认为这个参数是一个随机变量,于是预设一个参数的概率分布,再用已有样本去修正这个预设(先验概率),得到最有利于样本出现的分布参数(后验概率),因为贝叶斯派认为没有一个固有的分布参数,随着多次观察我们只能去趋近那个最合理的分布参数。
下面用最简单的离散型数据例子来解释一下:
例子:现在有100个球,黑白两色,不知道各有多少个,我们抽取(并放回)100次,70次拿到了黑球,30次拿到了白球,问100个球的颜色分布。
最大似然估计:
见上面的研究,结果是黑球有70个,这是完全根据现有的100次试验算出来的。
如果只试验了5次,那么结果是完全偏离的。
最大后验估计:
利用贝叶斯定理转换,把给定现有数据X情况下估计θ的最大值,变成求θ使得 P ( X ∣ θ ) ∗ P ( θ ) P(X|θ) * P(θ) P(X∣θ)∗P(θ)最大
把这100次试验作为一个样本,那么在总样本里出现的概率和θ无关,是个常量, 所以P(X)可以忽略
然后跟MLE一样,做ln处理:
这里P(θ)就是我们前面提到的参数的先验概率,我们先假设这个先验概率作为一个随机变量符合高斯分布,那么它的密度函数如下,其中x是我们的θ
对上面的式子求偏导得到(左边的P(X|θ)其实就是MLE的似然函数,求导过程略过)
exp前面的对于x是个常量,ln以后再求导就没了:
从这个式子我们可以看出:
a. 如果我们一开始强烈觉得θ应该是0.5,也就是黑白球各一半,那么μ = 0.5, σ 趋近于无穷小,也就是θ的高斯分布接近于一条竖线,θ集中在0.5,前面做多少次实验都没有意义,因为后面的式子是无穷大的,只有θ取0.5才能让这个式子等于0,也就是MAP的似然函数取到最大值
b. 如果我们一开始对θ毫无预测,也就是σ 趋近于无穷大,高斯分布接近于一条横线,再看上面的式子,就变成了MLE,只剩下左边,可以算出P = 0.7。也就是说如果没有先验概率,MAP和MLE是等价的
c. 只有取合适的θ和σ,随着实验次数的增多,左边的P占比变大,那么最后也和MLE殊途同归,能计算出最符合实际的参数估计。
总结:本质上MLE是根据样本数据直接计算概率参数,而MAP是预设一个参数的概率分布,然后通过样本数据去进行修正。 如果样本量不够大的时候,MAP可能更符合人们的日常经验,比如一个硬币抛五次,都是正面朝上,那么MLE算出来就是这个硬币正面朝上概率为100%,而用先验概率50%加上MAP去算,可能只是51%,更符合人们的日常经验。
如果样本量足够大,这两个方法还是殊途同归的
如果样本量适中,那么MAP使用比较合理的先验概率是很重要的