极大似然估计

标签(空格分隔): 数学


最大似然估计(maximun likelihood estimate)是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家哦罗纳德·费雪爵士在1912至1922年间开始使用的。

似然是对likelihood的一种较为贴切的文言文的翻译,似然用现代的中文来说即“可能性”。故而称之为“最大可能性估计”则更加通俗易懂。

最大似然估计(极大似然估计),通俗理解,就是利用已知的样本结果信息,反推最具有可能导致这些样本结果出现的模型参数值。换言之就是,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型一定,参数未知”。

当一个模型满足某个分布,他的参数值我通过极大似然估计法求出来的话。

假设有一个造币厂生成某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为\(\theta\))各为多少?

这是一个统计问题,解决统计问题需要数据,于是我们拿了这枚硬币抛了诗词,得到的数据(\(x_0\))是:反正正正正反正正正反。我们想求的正面概率\(\theta\)是模型参数,而抛硬币模型我们可以假设是二项分布。

那么出现实验结果\(x_0\)的似然函数是多少呢?


\[f(x_o,\theta)=(1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta)=\theta^7\times(1-\theta)^3=f(\theta)\tag1\]


注意、这是个只关于\(\theta\)的函数,二最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出他的图像。![此处输入图片的描述][1]

可以看出\(\theta=0.7\)时,似然函数取得最大值。这样我们已经完成了对\(\theta\)的最大似然估计。

即在已经知道抛十次硬币出现\(x_0\)这种情况下,硬币出现正面的概率也就是\(\theta\),在最符合\(x_0\)的情况下\(\theta\)的值最有可能是0.7。

极大似然估计:通过已知的模型获取模型参数。

最大后验概率

最大似然估计是求参数\(\theta\),使似然函数\(p(x_0|\theta)\)最大。最大后验概率估计则是想求\(\theta\)使\(P(x_0|\theta)P(\theta)\)最大。求得的\(\theta\)不单单让似然函数大,\(\theta\)自己出现的先验概率也得大。

最大后验概率估计其实是在最大化\(P(\theta|x_0)=\frac{P(x_0|\theta)P(\theta)}{P(x_0)}\),不过因为\(x_0\)是确定的(即投出的“反正正正正反正正正反”),\(P(x_0)\)是一个已知值,所以去掉了分母\(P(x_0)\)(假设“投10次硬币”是一个实验,实验做了1000次,\(x_0\)出现了\(n\)次,则\(P(x_0)=\frac{n}{1000}\),总之这是一个可以由数据集收集到的值)。最大化\(P(\theta|x_0)\)的意义也很明确,\(x_0\)应出现,要求\(\theta\)取什么值使\(P(\theta|x_0)\)最大。顺带一提,\(P(\theta|x_0)\)即后验概率,这就是“最大后验概率估计”名字的由来。

联合概率

联合概率即:\(P(A=a,B=b)\)。给定任何值\(a\)和\(b\),联合概率可以回答\(A=a\)和\(B=b\)同时满足的概率是多少?请注意,对于任何\(a\)和\(b\)的取值,\(P(A=a,B=b)\leq P(A=a)\)这点是确定的。

条件概率

\(0\leq\frac{P(A=a,B=b)}{A=a}\leq1\),这个比率就被称之为条件概率并用\(P(B=b|A=a)\)表示:它是\(A=a\)一定发生的情况下\(B=b\)的概率。

贝叶斯定理

使用条件概率的定义,我们可以得出统计学中最有用和最著名的方程之一:Bayes's theoren它如下所示。通过构造,我们有乘法规则,\(P(A,B)=P(B|A)P(A)\):A,B同时发生的概率为A发生的概率乘以A一定发生情况下B发生的概率。根据对称性,这也适用于\(P(A,B)=P(A|B)P(B)\)。假设\(P(B)>0\),求解其中一个条件变量,我们得到$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}\tag2$$。

请注意,在这里我们使用更紧凑的表示法,其中\(P(A,B)\)是一个联合分布,\(P(A|B)\)是一个条件分布。这种分布可以在在给定值\(A=a,B=b\)上进行求值。

边际化

如果我们想从另一件事中推断一件事,但我们只知道相反方向的属性,比如因和果的时候,Bayes定理是非常有用的,正如我们将在本节后面看到的那样。为了能进行这项工作,我们需要一个重要操作是边际化。这项工作是从\(P(A,B)\)中确定\(P(B)\)的操作。我们可以看到,\(B\)的高铝相当于计算\(A\)d额所有可能选择,并将所有选择的联合概率聚合在一起。$$P(B)=\sum_AP(A,b)\tag3$$这也称为求和规则,边际化结果的概率或分布称为边际概率或边际分布。

[1]: ​​https://x-powerblog.oss-cn-beijing.aliyuncs.com/图库/squares_plot.png​