文章目录
4.1朴素贝叶斯法的学习与分类
贝叶斯定理
- 贝叶斯思维
- 条件概率
- 贝叶斯定理
已知:
存在 类 , 给定一个新的实例
问:该实例归属第 类的可能性有多大?
即,
- 朴素贝叶斯
假设:实例特征之间相互独立
4.1.1 基本方法
- 训练数据集:
- 输入:
- 输出:
生成方法:学习联合概率分布
- 生成方法:学习联合概率分布
- 先验概率分布:
- 条件概率分布:
- 联合概率分布:
假设是独立的是为了能够计算出来,使其具有可行性
4.1.2 后验概率最大化的含义
- 后验概率
- 朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择损失函数:
式中是分类决策函数。这时,期望风险函数为
因为期望的定义是值出现的概率乘以具体值之和,所以上式可转换为损失函数与联合概率之积的积分:
期望是对联合分布取的。由此取条件期望
为了使期望风险最小化,只需对逐个极小化,由此得到: - 这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
即朴素贝叶斯法所采用的原理.
4.2 朴素贝叶斯法的参数估计
4.2.1 极大似然估计
- 由可知,学习意味着估计和
- 极大似然估计
- 是样本,分子是点的个数
- 设第个特征可能取值的集合为, 条件概率的极大似然估计是
式中,是第个样本的第个特征;是第个特征可能取的第个值;
4.2.2 学习与分类算法
- 计算先验概率及条件概率
- 对于给定实例,计算
- 确定实例的类
4.2.3 贝叶斯估计
- 先验概率的贝叶斯估计
- 条件概率的贝叶斯估计
注: 时为极大似然估计, 时为拉普拉斯平滑(Laplacian Smoothing)。
为什么+?
为什么+?