概念
1 概率和统计:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数;
2 极大似然估计(Maximum likelihood estimation,简称MLE):俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值,换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”;
3 极大似然估计的前提假设:所有的采样都是独立同分布的。
似然函数始末
在散型的情形下,随机变量的概率分布是已知的,但是该分布的参数未知,需要我们通过一定方法估计。举一个例子:
现有三个不标准的硬币,其中第一枚抛出后正面朝上的概率为,第二枚硬币抛出后正面朝上的概率为,第三枚抛出后正面朝上的概率为。取出其中一枚硬币,抛掷20次,其中正面朝上的次数为13次,请问取出的是第几枚硬币。
答: 分别计算三枚硬币抛掷20次,有13次正面朝上的概率:
第一枚:
第二枚:
第三枚:
所以这枚硬币更可能是第三枚。
我们的参数就是上例中待估计的正面向上的概率值。对应到上例,随机变量的取值表示抛掷次硬币,正面向上的次数,这个概率为:
其中,、这些参数是已知的,参数是未知的,因此抛掷次硬币,有次向上的概率是一个关于参数的函数,写作:
如果做次这样的实验,每一次实验中,都是连续抛掷次硬币,统计出现正面的次数,得到一系列样本:,这些样本的取值之间满足相互独立,那么这一串样本取得上述取值的联合概率为:
变换一下形式:
就是已知样本值的似然函数,它描述的是取得这一串指定样本值的概率值,而这个概率值完全由未知参数决定。
如果是一个连续型随机变量,则:
极大似然估计原理
思想
显然,似然函数是指随机变量取到指定的一组样本值时的概率大小。当未知的待估计参数取不同的值时,计算出来的该列车的值会发生变化。
例如,当时,似然函数的取值为0或趋近于0,那么意味着当时,随机变量取得这一组样本的概率为0,即根本不可能或可能性极小得到这样一组样本值,那么就不应该取为参数估计值。
如果当取和两种不同的值时,似然函数的值,即取比取有更大的可能获得这一组样本值,所以在选取估计值时更倾向于选取。
因此我们需要做的就是在未知参数的取值范围中选取使得似然函数能够取得最大值的,作为未知参数的估计值,由于使得似然函数取值达到最大,因此就是未知参数的极大似然估计。
计算
在给定概率模型和一组相互独立的观测样本的基础之上,求使得似然函数取得最大值的未知参数的取值(连续情况类似)。
那么,就直接对似然函数求导,使得导数为0的的取值,就是我们要找的极大似然估计值。由于函数和函数的单调性时一致的,并且的式子都是连乘,所以将其转换成:
此时在对该函数求导,如果上式有唯一解,并且还是最大值点,那么那就是我们要求的极大似然估计值。
更一般的,对于多参数情况:
然后对于每一个待估计的未知参数,都求偏导数,并令其为零,得到如下方程式:
解出该方程即可。
需要注意的是极大似然估计值可能不存在,并且如果存在也有可能它的值不唯一。可以参考下面两个图:
如果极大似然函数在极大值处不连续,一阶导数不存在,则 MLE 不存在。
MLE不唯一的情况。