SnowNLP 朴素贝叶斯原理

转载

mob6454cc6f8e48 2024-09-12 21:07:11

文章标签 SnowNLP 朴素贝叶斯原理朴素贝叶斯后验概率最小化 文章分类 NLP 人工智能

朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法。

贝叶斯定理：条件概率推理，利用条件概率来对一些事情进行推断。

特征条件独立假设：用于分类的特征在类确定的情况下都是条件独立的。

1. 贝叶斯分类基本原理：

对于给定集合｛X,Y｝，首先求取类别Y的分布概率

SnowNLP 朴素贝叶斯原理_后验概率

，这是先验概率分布。再求取条件概率分布：

SnowNLP 朴素贝叶斯原理_后验概率_02

，该分布的意义是训练数据集中标签为

SnowNLP 朴素贝叶斯原理_朴素贝叶斯_03

的样本集中，第j个样本出现的概率。

由此，求得了先验概率

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_04

,和条件概率

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_05

,则可求得后验概率：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_06

2. 基本方法：

假设给定训练数据集：

SnowNLP 朴素贝叶斯原理_后验概率_07

（1.1）其中x,y独立同分布。其中类别标签中有K个类别，

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_08

，则先验概率分布为：

SnowNLP 朴素贝叶斯原理_朴素贝叶斯_09

（1.2）

，条件概率计算方式为：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_10

（1.3）

再根据前面的特征条件独立的强假设，上式可以变成：

SnowNLP 朴素贝叶斯原理_后验概率_11

（1.4）使用朴素贝叶斯分类时，对于输入数据x,通过学习到的模型，计算出后验概率分布：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_12

。

其公式表达式为：

SnowNLP 朴素贝叶斯原理_最小化_13

（1.5）

再将公式（1.4）引入，可以获得新的后验概率表达式为：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_14

（1.6）

则贝叶斯模型分类器模型表达式可以表示为：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_15

（1.7）由于（1.7）中每次的

SnowNLP 朴素贝叶斯原理_朴素贝叶斯_16

是相同的，因此分母的概率累加和为1.则公式（1.7）可以变形为：

SnowNLP 朴素贝叶斯原理_后验概率_17

（1.8）

3. 后验概率最大化:

朴素贝叶斯算法将实例分到后验概率最大的类。这等价于期望风险最小化。假设损失函数为：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_18

L(Y,f(X))={1,Y≠f(X)0,Y=f(X)

上式中的

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_19

是分类决策函数，这时，期望风险函数表达式为：

SnowNLP 朴素贝叶斯原理_后验概率_20

此期望是对联合分布

SnowNLP 朴素贝叶斯原理_最小化_21

取的。公式表达式为：

SnowNLP 朴素贝叶斯原理_朴素贝叶斯_22

而Y由

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_23

组成，故期望风险的表达式可以表示为：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_24

为了使期望风险最小化，只需对

SnowNLP 朴素贝叶斯原理_最小化_25

逐个极小化：

SnowNLP 朴素贝叶斯原理_SnowNLP 朴素贝叶斯原理_26

通过以上推导，根据期望风险最小化得到了后验概率最大化：

SnowNLP 朴素贝叶斯原理_后验概率_27

这就是朴素贝叶斯算法所使用的原理。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：illusyrator JavaScript 常用语法

下一篇：echart一个圆形里面有多个容器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

SnowNLP 朴素贝叶斯 原理

SnowNLP 朴素贝叶斯 原理

51CTO博客

SnowNLP 朴素贝叶斯原理

SnowNLP 朴素贝叶斯原理