期望对数似然和对应的估计量


我们可以通过计算KL信息来评估给定模型的合适性。 但是,KL信息在真实建模中只能在有限的几个例子中使用,因为KL信息包含了未知分布计算概率模型的对数似然函数python 对数似然函数的期望_算法,这使得KL信息不能被直接计算。

KL信息可以被分解为
计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_02
此外,等式右边的第一项是一个常数,因为它仅仅依赖于真实模型计算概率模型的对数似然函数python 对数似然函数的期望_算法,显然为了比较不同的模型,仅考虑上式的第二项即可。 这一项被称为期望对数似然(expected log-likelihood). 这一项的值越大,KL信息越小,则该模型越好。

因为期望对数似然可以表达为
计算概率模型的对数似然函数python 对数似然函数的期望_概率论_04
我们发现,期望对数似然仍然依赖于真实分布计算概率模型的对数似然函数python 对数似然函数的期望_概率论_05,这是一个无法明确计算的未知量。可是,如果能从数据中获得一个良好的期望对数似然的估计,那么这个估计可以用来作为比较模型的准则。

我们考虑如下的问题,定义计算概率模型的对数似然函数python 对数似然函数的期望_概率分布_06是从真实分布计算概率模型的对数似然函数python 对数似然函数的期望_算法_07计算概率模型的对数似然函数python 对数似然函数的期望_概率论_08获得的观测数据。通过将未知的概率分布计算概率模型的对数似然函数python 对数似然函数的期望_建模_09用基于观测数据的经验分布函数计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_10替换,我们可以获得一个期望对数似然的估计。 众所周知,经验分布函数是概率函数为计算概率模型的对数似然函数python 对数似然函数的期望_算法_11的分布函数。这意味着计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_12个观测中的每一个观测具有相等的概率计算概率模型的对数似然函数python 对数似然函数的期望_算法_13。事实上,通过这种替换,我们可以获得,
计算概率模型的对数似然函数python 对数似然函数的期望_概率分布_14
基于大数定律,当计算概率模型的对数似然函数python 对数似然函数的期望_概率分布_15, 随机变量的均值计算概率模型的对数似然函数python 对数似然函数的期望_算法_16依概率收敛于它的期望。也就是说,下面的收敛是成立的,即
计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_17
因此,显然,我们发现期望对数似然的一个自然估计是基于概率分布函数的估计
计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_18
期望对数似然的估计乘以计算概率模型的对数似然函数python 对数似然函数的期望_计算概率模型的对数似然函数python_19就是模型计算概率模型的对数似然函数python 对数似然函数的期望_算法_20的对数似然(log-likelihood)这意味着在统计分析中频繁使用的对数似然可以清楚地理解为KL信息的近似。