机器学习最大后验概率预测特征

转载

mob6454cc6f6c1c 2024-09-04 20:00:14

文章标签 机器学习最大后验概率预测特征算法最小化数据后验概率 文章分类 机器学习人工智能

1. 频率学派和贝叶斯派

频率学派
认为世界是确定的。他们直接为事件本身建模，也就是说事件在多次重复实验中趋于一个稳定的值p，那么这个值就是该事件的概率

他们认为模型参数是个定值，希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计（MLE），这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

贝叶斯派
他们认为模型参数源自某种潜在分布，希望从数据中推知该分布。对于数据的观测方式不同或者假设不同，那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计（MAP），这种方法在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用会逐渐削弱，相反真实的数据样例会大大占据有利地位。极端情况下，比如把先验假设去掉，或者假设先验满足均匀分布的话，那她和极大似然估计就如出一辙了。

2. 极大似然概率和最大后验概率

2.1 极大似然概率（MLE）

可以简单理解为概率、可能性，也就是说要最大化该事件发生的可能性；它的含义是根据已知样本，希望通过调整模型参数来使得模型能够最大化样本情况出现的概率

例子说明
假如一个盒子里面有红黑共10个球，每次有放回的取出，取了10次，结果为7次黑球，3次红球。问拿出黑球的概率 $机器学习最大后验概率预测特征_最小化$

我们假设7次黑球，3次红球为事件 A，一个理所当然的想法就是既然事件A已经发生了，那么事件 A发生的概率应该最大。所以既然事件A 的结果已定，我们就有理由相信这不是一个偶然发生的事件，这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大，我们把这十次抽取看成一个整体事件A ，很明显事件A发生的概率是每个子事件概率之积。我们把 $机器学习最大后验概率预测特征_算法_02$ 看成一个关于 $机器学习最大后验概率预测特征_最小化$ (黑球的概率) 的函数，求 $机器学习最大后验概率预测特征_算法_02$ 取最大值时的 $机器学习最大后验概率预测特征_最小化$ ，这就是极大似然估计的思想。具体公式化描述为 $机器学习最大后验概率预测特征_最小化_06$

接下来就是取对数转换为累加，然后通过求导令式子为0来求极值，求出p的结果。
$机器学习最大后验概率预测特征_算法_07$

令： $机器学习最大后验概率预测特征_最小化_08$
得： $机器学习最大后验概率预测特征_后验概率_09$
得： $机器学习最大后验概率预测特征_机器学习最大后验概率预测特征_10$

2.2 最大后验概率估计（MAP）

就是最大化在给定数据样本的情况下模型参数的后验概率；它依然是根据已知样本，来通过调整模型参数使得模型能够产生该数据样本的概率最大，只不过对于模型参数有了一个先验假设，即模型参数可能满足某种分布，不再一味地依赖数据样例（万一数据量少或者数据不靠谱呢）

例子说明
抛一枚硬币10次，有10次正面朝上，0次反面朝上。问正面朝上的概率 $机器学习最大后验概率预测特征_数据_11$ 。

利用极大似然估计可以得到 $机器学习最大后验概率预测特征_数据_11$

如果我们利用极大后验概率估计来看这件事，先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布)，那么 $机器学习最大后验概率预测特征_最小化_13$ 是一个分布，最大值会介于0.5~1之间，而不是武断的给出 $机器学习最大后验概率预测特征_数据_11$ = 1。

随着数据量的增加，参数分布会更倾向于向数据靠拢，先验假设的影响会越来越小

3. 经验风险最小化与结构风险最小化

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低；而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度，使其在训练数据集的损失降到最低的同时，模型不至于过于复杂，相当于在损失函数上增加了正则项，防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则：如无必要，勿增实体。

经验风险最小化可以看作是采用了极大似然的参数评估方法，更侧重从数据中学习模型的潜在参数，而且是只看重数据样本本身。这样在数据样本缺失的情况下，很容易管中窥豹，模型发生过拟合的状态；结构风险最小化采用了最大后验概率估计的思想来推测模型参数，不仅仅是依赖数据，还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下，我们可以通过模型参数的先验假设，辅助以数据样本，做到尽可能的还原真实模型分布。