一、贝叶斯公式

pyspark 贝叶斯 贝叶斯bp_先验概率


朴素贝叶斯思想:

对于待分类的项,求解在此项出现的条件下其他各个类别出现的概率,哪个最大,就认为此项属于哪个类别


定义

贝叶斯定理是关于随机事件 A 和 B 的条件概率:

pyspark 贝叶斯 贝叶斯bp_先验概率_02


其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

在贝叶斯定理中,每个名词都有约定俗成的名称:

P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。
P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。
P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。
P(B)是 B 的先验概率,也作标淮化常量(normalizing constant)。

按这些术语,贝叶斯定理可表述为:

后验概率 = (相似度 * 先验概率)/标淮化常量
也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标淮相似度(standardised likelihood),Bayes定理可表述为:

后验概率 = 标淮相似度 * 先验概率

条件概率就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在 B 发生的条件下 A 发生的概率”。

联合概率表示两个事件共同发生(数学概念上的交集)的概率。A 与 B 的联合概率表示为联合概率。


推导

我们可以从条件概率的定义推导出贝叶斯定理。

根据条件概率的定义,在事件 B 发生的条件下事件 A 发生的概率为:

pyspark 贝叶斯 贝叶斯bp_先验概率_02


同样地,在事件 A 发生的条件下事件 B 发生的概率为:

pyspark 贝叶斯 贝叶斯bp_条件概率_04


结合这两个方程式,我们可以得到:

pyspark 贝叶斯 贝叶斯bp_条件概率_05


这个引理有时称作概率乘法规则。上式两边同除以 P(A),若P(A)是非零的,我们可以得到贝叶斯定理:

pyspark 贝叶斯 贝叶斯bp_条件概率_06


BPR

pyspark 贝叶斯 贝叶斯bp_后验概率_07


pyspark 贝叶斯 贝叶斯bp_pyspark 贝叶斯_08


pyspark 贝叶斯 贝叶斯bp_后验概率_09


pyspark 贝叶斯 贝叶斯bp_pyspark 贝叶斯_10


pyspark 贝叶斯 贝叶斯bp_条件概率_11