频率派vs贝叶斯派

转载

我是天才很好 2022-02-24 09:50:15

频率派vs贝叶斯派 —— MLE（最大似然估计） vs MAP（最大后验估计）

1. 频率派 vs 贝叶斯派

在概率估计或者机器学习里的参数估计上，有两个方法，MLE（最大似然估计）和MAP（最大后验估计），其实代表了概率论里的两个派别，频率派和贝叶斯派

往大的说，这两个派别代表了不同的世界观。频率派认为参数是客观存在不会改变的，虽然未知，但却是固定值；贝叶斯派则认为参数是随机值，因为不可能做完整的实验去确定，因此参数也可以有分布。

往小处说，频率派最常关心的是似然函数，他们认为直接用样本去计算出的概率就是真实的，而贝叶斯派最常关心的是后验分布，他们认为样本只是用来修正经验观点。

贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（如MCMC）使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布，因此更加客观，也更加无偏，在一些保守的领域（比如制药业、法律）比贝叶斯方法更受到信任。

2. MLE vs MAP

概率论里的参数估计两种方法MLE和MAP就代表了频率派和贝叶斯派的观点。

关于MLE前面研究过

简单来说，MLE就是用现有样本直接去推导使这些样本出现概率最大的分布参数，因为概率派认为这个分布参数是固有的。

而MAP认为这个参数是一个随机变量，于是预设一个参数的概率分布，再用已有样本去修正这个预设（先验概率），得到最有利于样本出现的分布参数（后验概率），因为贝叶斯派认为没有一个固有的分布参数，随着多次观察我们只能去趋近那个最合理的分布参数。

下面用最简单的离散型数据例子来解释一下：

例子：现在有100个球，黑白两色，不知道各有多少个，我们抽取（并放回）100次，70次拿到了黑球，30次拿到了白球，问100个球的颜色分布。

最大似然估计：

见上面的研究，结果是黑球有70个，这是完全根据现有的100次试验算出来的。

如果只试验了5次，那么结果是完全偏离的。

最大后验估计：

利用贝叶斯定理转换，把给定现有数据X情况下估计θ的最大值，变成求θ使得 P ( X ∣ θ ) ∗ P ( θ ) P(X|θ) * P(θ) P(X∣θ)∗P(θ)最大

把这100次试验作为一个样本，那么在总样本里出现的概率和θ无关，是个常量，所以P(X)可以忽略

频率派vs贝叶斯派_先验概率

然后跟MLE一样，做ln处理：

频率派vs贝叶斯派_先验概率_02

这里P（θ）就是我们前面提到的参数的先验概率，我们先假设这个先验概率作为一个随机变量符合高斯分布，那么它的密度函数如下，其中x是我们的θ

频率派vs贝叶斯派_先验概率_03

对上面的式子求偏导得到（左边的P（X|θ）其实就是MLE的似然函数，求导过程略过）

exp前面的对于x是个常量，ln以后再求导就没了：

频率派vs贝叶斯派_数据_04

从这个式子我们可以看出：

a. 如果我们一开始强烈觉得θ应该是0.5，也就是黑白球各一半，那么μ = 0.5， σ 趋近于无穷小，也就是θ的高斯分布接近于一条竖线，θ集中在0.5，前面做多少次实验都没有意义，因为后面的式子是无穷大的，只有θ取0.5才能让这个式子等于0，也就是MAP的似然函数取到最大值

b. 如果我们一开始对θ毫无预测，也就是σ 趋近于无穷大，高斯分布接近于一条横线，再看上面的式子，就变成了MLE，只剩下左边，可以算出P = 0.7。也就是说如果没有先验概率，MAP和MLE是等价的

c. 只有取合适的θ和σ，随着实验次数的增多，左边的P占比变大，那么最后也和MLE殊途同归，能计算出最符合实际的参数估计。

总结：本质上MLE是根据样本数据直接计算概率参数，而MAP是预设一个参数的概率分布，然后通过样本数据去进行修正。如果样本量不够大的时候，MAP可能更符合人们的日常经验，比如一个硬币抛五次，都是正面朝上，那么MLE算出来就是这个硬币正面朝上概率为100%，而用先验概率50%加上MAP去算，可能只是51%，更符合人们的日常经验。

如果样本量足够大，这两个方法还是殊途同归的

如果样本量适中，那么MAP使用比较合理的先验概率是很重要的