贝叶斯分类器



贝叶斯分类器的分类原理是通过某对象的 先验概率 ,利用 贝叶斯公式 计算出其 后验概率 ,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。




训练




和所有监督算法一样,贝叶斯分类器是利用样本进行训练的,每个样本包含了一个特征列表和对应的分类。假定我们要对一个分类器进行训练,使其能够正确的判断出:一个包含"python"的文档究竟是编程语言的,还是关于蛇的。


                                           

分类

Python是以鸟和哺乳动物为食的大蟒

Python最初是作为一门脚本语言被开发出来的

语言

在印度尼西亚发现了一条14.935米长的Python

Python具有动态类型的系统

语言

拥有鲜艳表皮的Python

                                            

语言

 

 

分类器记录了它迄今为止见过的所有特征,以及这些特征与某个特定分类相关的数字概率。分类器逐一接受样本的训练。


当经过某个样本的训练之后,分类器会更新该样本中特征与分类的概率,同时还会生成一个新的概率,即:在一篇属于某个分类的文档中,含有指定单词的概率。例如


                         

                      

                       

dynamic

0.6

0.1

constrictor

0.0

0.6

long

0.1

0.2

source

0.3

0.1

and

0.95

0.95



另一方便,有些特征的所属分类则没有那么明确。比如:单词"and"出现在两个分类中的概率是差不多的(单词and几乎会出现在每一篇文档中,不管它属于哪一个分类。)分类器在经过训练之后。只会保留一个附有相应概率的特征列表,与某些其他的分类方法不同,此处的原始数据在训练之后,就没有必要再加以保存了。



分类



当一个贝叶斯分类器经过训练之后,我们就可以利用它来对新的项目进行自动分类了。假定我们有一篇新的文档,包含了“long” “dynamic” 和 “source”。



朴素贝叶斯分类器是通过下面的公式将概率组合起来的:


P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)


此处:




P(  
 Document  
 |  
 Category 
 ) = P (Word1 | Category ) * P(  
 Word2 
 ) / P( 
 Category   
 )
 

 
p 
 (  
 Document  
 |  
 Category 
 ) 的取值来自于上表,比如  
 P( dynamic  
 | language 
 ) = 0.6


p( Category) 的取值则等于某个分类出现的总体概率,因为"  language  " 有一般的机会都会出现,所以 P( language  ) 的值为0.5


。无论是哪个分类,只要其 P( Category | Document) 的值相对较高,它就是我们预期的分类。




----




我们需要一个定义一个特征提取函数,该函数的作用是将我们用以训练或分类的数据转化成一个特征列表。


docclass.getwords('python is a dynamic language')
 
{'python':1,'dymaic':1,'language':1}




上述函数可用于创建一个新的分类器,针对字符串进行训练:


cl = docclass.nativebayes(docclass.getwords)
 
cl.setdb('test.db')
 
cl.train('pythons are constrictors','snake')
 
cl.train('python has dynamic types','language')
 
cl.train('python was developed as a scripting language','language')
 

 
然后进行分类
 
 

 
cl.classify('dynamic programming')
 
u'language'
 
 

 
cl.classify('boa constrictors')
 
u'snake'






对于允许使用的分类数量,此处并没有任何的限制,但是为了使分类器有一个良好的表现,我们需要为每个分类提供大量的样本。




优点和缺点




朴素贝叶斯分类器与其他方法相比最大的优势或许就在于,它在接受大数据量训练和查询时所具备的的高速度。即使选用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类页仅仅是针对特征概率的数学运算而已。






尤其当训练量逐渐递增时则更加如此--在不借助任何旧有训练数据的前提下,每一组新的训练数据都有可能会引起概率值变化。对于一个如垃圾邮件过滤这样的应用程序而言,支持增量式训练的能力是非常重要的,因为过滤程序时常要对新到的邮件进行训练,然后必须即可进行相应的调整;更何况,过滤程序也未必有权限访问已经收到的所有邮件信息。






朴素贝叶斯分类器的另一大优势是,对分类器实际学习状况的解释还是相对简单的。由于每个特征的概率值都被保存了起来,因此我们可以在任何时候查看数据库,找到最合适的特征来区分垃圾邮件和非垃圾邮件,或是编程语言和蛇。保存在数据库中的这些信息都很有价值,它们有可能被用于其他的应用程序,或者作为构筑这些应用程序的一个良好基础。






朴素贝叶斯分类器的最大缺陷就是,它无法处理基于特征组合所产生的变化结果。假设有如下这样一个场景,我们正在尝试从非垃圾邮件中鉴别出垃圾邮件来:假设我们构建的是一个Web应用程序,因为单词“online”市场会出现在你的工作邮件中。而你的好友则在一家药店工作,并且喜欢给你发一些他碰巧在工作中遇到的奇闻趣事。同时,和大多数不善于严密保护自己邮件地址的人一样,偶尔你也会收到一封包含单词”online pharmacy“的垃圾邮件。






也许你已经看出此处的难点--我们往往会告诉分类器”onlie“和”pharmacy“是出现在非垃圾邮件中的,因此这些单词相对于非垃圾邮件的概率会高一些。当我们告诉分类器有一封包含单词”onlie pharmacy“ 的邮件属于垃圾邮件时,则这些单词的概率又会进行相应的调整,这就导致了一个经常性的矛盾。由于特征的概率是单独给出的,因此分类器对于各种组合的情况一无所知。在文档分类中,这通常不是什么大问题,因为一封包含单词”online pharmacy“的邮件中可能还会有其他的特征可以说明它是垃圾邮件,但是在面对其他问题时,理解特征的组合可能是至关重要的。