零、前言:模型估计问题的总结

模型分为确知模型与概率模型。

确知模型的输出是一个确定的值,如:买x斤苹果,每斤苹果2元,总价值为y=2x;

而概率模型输出的是自变量的概率,如:一个不均匀的四面体骰子,出现对应点数的概率和点数的大小相关,P(x)=y=0.1x。

我们这里主要讨论概率模型

在这里首先规定符号:

假设

java贝叶斯 贝叶斯 map_机器学习

是iid的一组抽样,并记作

java贝叶斯 贝叶斯 map_概率模型_02

模型是对数据的描述,用一些参数和变量及它们的数学关系刻画,记作

java贝叶斯 贝叶斯 map_java贝叶斯_03

,其中X代表自变量向量,θ代表参数向量。概率模型的估计问题就是我们确定一个模型的形式,如高斯分布

,找到最优参数θ的值(θ是一个向量,可以存在多个参数)。而机器学习之后做的就是,确定目标/损失函数

java贝叶斯 贝叶斯 map_java贝叶斯_04

,求其最大值/最小值,得到参数的估计值,从而确定模型,以进行数据预测。

可见模型估计的最核心部分,就是求解参数θ

一、频率学派与贝叶斯学派

在介绍求解θ的方法前,首先介绍两大学派。

抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;

而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布

用人话来讲:

频率学派认为θ是一个确值,对应MLE;

贝叶斯学派认为θ是一个随机变量,符合某个确定的分布,对应MAP。

二、由简单的抛硬币实验到MLE、MAP

我们以一个直观简单的抛硬币实验来演示MLE与MAP的参数求解方法。

给定一个硬币,做了10次实验,结果为:“反正正正正反正正正反”。

那么实验数据(输入数据)为

java贝叶斯 贝叶斯 map_概率模型_05


据此求出现正面的概率,即求θ。

2.1 MLE:

MLE的求解方法如下:

java贝叶斯 贝叶斯 map_测试数据_06

P(X;θ)的意思是,模型参数为θ时,出现样本X的概率。

P(xi;θ)的意思是,模型参数为θ时,出现xi的概率。

上式的含义是,模型参数为θ时,抽到这组样本的概率最大。据此求得θ。

带入到抛硬币实验,设硬币结果符合二项分布,p(1;θ)=θ,p(0;θ)=1-θ,那么有:

可得θ为0.7

2.2 MAP(贝叶斯模型)

MAP认为θ符合一定分布,即存在一个P(θ),那么根据贝叶斯公式:

java贝叶斯 贝叶斯 map_java贝叶斯_07

P(θ|X)表示已知测试数据为X时,参数为θ的概率,为后验概率。

MAP的思想是,已知测试数据为X,参数为θ的概率应该最大,即:

java贝叶斯 贝叶斯 map_概率论_08

上式中,测试集数据分布X是先验,是已知的,所以可以去掉。 

带入到抛硬币实验,我们认为先验的P(θ)分布为一个高斯模型,均值为0.5,方差随便定,假设定为0.1。因为我们认为硬币是一个均匀的,所以认为θ的均值为0.5。

那么有:

 也可以写成:

java贝叶斯 贝叶斯 map_java贝叶斯_09

比较MLE的公式,可以看到,MAP相当于对MLE做了一个先验的误差惩罚,使得θ不能太偏离先验。

上式的函数图像如下:

java贝叶斯 贝叶斯 map_java贝叶斯_10

可见,θ的最优取值介于先验的0.5与统计频率0.7之间