朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法。

  贝叶斯定理:条件概率推理,利用条件概率来对一些事情进行推断。

  特征条件独立假设:用于分类的特征在类确定的情况下都是条件独立的。

 

1. 贝叶斯分类基本原理:

    对于给定集合{X,Y},首先求取类别Y的分布概率

SnowNLP 朴素贝叶斯 原理_后验概率

,这是先验概率分布。   再求取条件概率分布:

SnowNLP 朴素贝叶斯 原理_后验概率_02

,该分布的意义是训练数据集中标签为

SnowNLP 朴素贝叶斯 原理_朴素贝叶斯_03

的样本集中,第j个样本出现的概率。

 

  由此,求得了先验概率

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_04

,和条件概率

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_05

,则可求得后验概率:

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_06

.

 

2. 基本方法:

     假设给定训练数据集:

                                            

SnowNLP 朴素贝叶斯 原理_后验概率_07

                                     (1.1)其中x,y独立同分布。其中类别标签中有K个类别,

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_08

,则先验概率分布为:                                                                  

SnowNLP 朴素贝叶斯 原理_朴素贝叶斯_09

                                                                        (1.2)

,条件概率计算方式为:

                       

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_10

             (1.3)

再根据前面的特征条件独立的强假设,上式可以变成:

                                       

SnowNLP 朴素贝叶斯 原理_后验概率_11

                    (1.4)使用朴素贝叶斯分类时,对于输入数据x,通过学习到的模型,计算出后验概率分布:

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_12


其公式表达式为:

                   

SnowNLP 朴素贝叶斯 原理_最小化_13

  (1.5)

再将公式(1.4)引入,可以获得新的后验概率表达式为:

         

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_14

(1.6)

则贝叶斯模型分类器模型表达式可以表示为:

               

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_15

            (1.7)由于(1.7)中每次的

SnowNLP 朴素贝叶斯 原理_朴素贝叶斯_16

是相同的,因此分母的概率累加和为1.则公式(1.7)可以变形为:                  

SnowNLP 朴素贝叶斯 原理_后验概率_17

            (1.8)

 

3. 后验概率最大化:

 

                朴素贝叶斯算法将实例分到后验概率最大的类。这等价于期望风险最小化。假设损失函数为:

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_18

,

L(Y,f(X))={1,Y≠f(X)0,Y=f(X)

上式中的

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_19

是分类决策函数, 这时,期望风险函数表达式为:                                                       

SnowNLP 朴素贝叶斯 原理_后验概率_20

此期望是对联合分布

SnowNLP 朴素贝叶斯 原理_最小化_21

取的。公式表达式为:                                        

SnowNLP 朴素贝叶斯 原理_朴素贝叶斯_22

而Y由

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_23

组成,故期望风险的表达式可以表示为:                                           

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_24

为了使期望风险最小化,只需对

SnowNLP 朴素贝叶斯 原理_最小化_25

逐个极小化:                                         

SnowNLP 朴素贝叶斯 原理_SnowNLP 朴素贝叶斯 原理_26

通过以上推导,根据期望风险最小化得到了后验概率最大化:

                                           

SnowNLP 朴素贝叶斯 原理_后验概率_27

这就是朴素贝叶斯算法所使用的原理。