贝叶斯分类器
什么是贝叶斯分类器
贝叶斯分类器是一类分类器的总称,这些分类器均以贝叶斯定理为基础,故统称为贝叶斯分类器。这些分类器中最简单的是朴素贝叶斯分类器,它几乎完全按照贝叶斯定理进行分类,因此我们从朴素贝叶斯分类器说起。
贝叶斯定理:
贝叶斯分类器
估计类别下特征属性划分的条件概率及Laplace校准
朴素贝叶斯算法的优缺点
优点:
- 数学基础坚实,分类效率稳定,容易解释;
- 所需估计的参数很少,对缺失数据不太敏感;
- 无需复杂的迭代求解框架,适用于规模巨大的数据集。
缺点:
- 属性之间的独立性假设往往不成立(可考虑用聚类算法先将相关性较大的属性进行聚类);
- 需要知道先验概率,分类决策存在错误率。
朴素贝叶斯分类器是个非常简单的分类器,原理完全基于概率论中的贝叶斯定理,但是它的假设条件对于现实应用有些严苛,不过,这并不妨碍朴素贝叶斯分类器在垃圾邮件识别,不真实账号检测等领域发挥重大作用。用已故的统计学家George E. P. Box的话来说,就是:All models are wrong, but some are useful.