贝叶斯分类器

什么是贝叶斯分类器

贝叶斯分类器是一类分类器的总称,这些分类器均以贝叶斯定理为基础,故统称为贝叶斯分类器。这些分类器中最简单的是朴素贝叶斯分类器,它几乎完全按照贝叶斯定理进行分类,因此我们从朴素贝叶斯分类器说起。

贝叶斯定理:

贝叶斯分类器sklearn实现 贝叶斯分类器的基础_贝叶斯分类器

贝叶斯分类器

贝叶斯分类器sklearn实现 贝叶斯分类器的基础_条件概率_02

估计类别下特征属性划分的条件概率及Laplace校准

贝叶斯分类器sklearn实现 贝叶斯分类器的基础_贝叶斯分类器sklearn实现_03

朴素贝叶斯算法的优缺点

优点:

  1. 数学基础坚实,分类效率稳定,容易解释;
  2. 所需估计的参数很少,对缺失数据不太敏感;
  3. 无需复杂的迭代求解框架,适用于规模巨大的数据集。

缺点:

  1. 属性之间的独立性假设往往不成立(可考虑用聚类算法先将相关性较大的属性进行聚类);
  2. 需要知道先验概率,分类决策存在错误率。

朴素贝叶斯分类器是个非常简单的分类器,原理完全基于概率论中的贝叶斯定理,但是它的假设条件对于现实应用有些严苛,不过,这并不妨碍朴素贝叶斯分类器在垃圾邮件识别,不真实账号检测等领域发挥重大作用。用已故的统计学家George E. P. Box的话来说,就是:All models are wrong, but some are useful.