零、前言:模型估计问题的总结
模型分为确知模型与概率模型。
确知模型的输出是一个确定的值,如:买x斤苹果,每斤苹果2元,总价值为y=2x;
而概率模型输出的是自变量的概率,如:一个不均匀的四面体骰子,出现对应点数的概率和点数的大小相关,P(x)=y=0.1x。
我们这里主要讨论概率模型
在这里首先规定符号:
假设
是iid的一组抽样,并记作
模型是对数据的描述,用一些参数和变量及它们的数学关系刻画,记作
,其中X代表自变量向量,θ代表参数向量。概率模型的估计问题就是我们确定一个模型的形式,如高斯分布
,找到最优参数θ的值(θ是一个向量,可以存在多个参数)。而机器学习之后做的就是,确定目标/损失函数
,求其最大值/最小值,得到参数的估计值,从而确定模型,以进行数据预测。
可见模型估计的最核心部分,就是求解参数θ。
一、频率学派与贝叶斯学派
在介绍求解θ的方法前,首先介绍两大学派。
抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;
而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
用人话来讲:
频率学派认为θ是一个确值,对应MLE;
贝叶斯学派认为θ是一个随机变量,符合某个确定的分布,对应MAP。
二、由简单的抛硬币实验到MLE、MAP
我们以一个直观简单的抛硬币实验来演示MLE与MAP的参数求解方法。
给定一个硬币,做了10次实验,结果为:“反正正正正反正正正反”。
那么实验数据(输入数据)为
。
据此求出现正面的概率,即求θ。
2.1 MLE:
MLE的求解方法如下:
P(X;θ)的意思是,模型参数为θ时,出现样本X的概率。
P(xi;θ)的意思是,模型参数为θ时,出现xi的概率。
上式的含义是,模型参数为θ时,抽到这组样本的概率最大。据此求得θ。
带入到抛硬币实验,设硬币结果符合二项分布,p(1;θ)=θ,p(0;θ)=1-θ,那么有:
可得θ为0.7
2.2 MAP(贝叶斯模型)
MAP认为θ符合一定分布,即存在一个P(θ),那么根据贝叶斯公式:
P(θ|X)表示已知测试数据为X时,参数为θ的概率,为后验概率。
MAP的思想是,已知测试数据为X,参数为θ的概率应该最大,即:
上式中,测试集数据分布X是先验,是已知的,所以可以去掉。
带入到抛硬币实验,我们认为先验的P(θ)分布为一个高斯模型,均值为0.5,方差随便定,假设定为0.1。因为我们认为硬币是一个均匀的,所以认为θ的均值为0.5。
那么有:
也可以写成:
比较MLE的公式,可以看到,MAP相当于对MLE做了一个先验的误差惩罚,使得θ不能太偏离先验。
上式的函数图像如下:
可见,θ的最优取值介于先验的0.5与统计频率0.7之间