朴素贝叶斯

贝叶斯回归spss 贝叶斯回归算法_贝叶斯回归spss


全概率公式:

贝叶斯回归spss 贝叶斯回归算法_朴素贝叶斯_02


例子参考这里:

优缺点

优点:
(1) 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可!)
(2)分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
缺点:
朴素贝叶斯假设属性之间相互独立,这种假设在实际过程中往往是不成立的。在属性之间相关性越大,分类误差也就越大。

类型

  1. 高斯分布型:先验为高斯分布(正态分布)的朴素贝叶斯,假设每个标签的数据都服从简单的正态分布
  2. 多项式型:用于离散值模型里。先验为多项式分布的朴素贝叶斯(非常适合用于描述出现次数,常用于文本分类)
  3. 伯努利型:最后得到的特征只有0(没出现)和1(出现过)。

总结

贝叶斯回归spss 贝叶斯回归算法_概率分布_03

词集模型:Set Of Words,单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个.
词袋模型:Bag Of Words,如果一个单词在文档中出现不止一次,并统计其出现的次数(频数)

面试常问的

1、 朴素贝叶斯与LR的区别?

朴素贝叶斯是生成模型,根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X), 而LR是判别模型,根据极大化对数似然函数直接求出条件概率P(Y|X);朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的),而LR则对此没有要求;朴素贝叶斯适用于数据集少的情景,而LR适用于大规模数据集。

2、 在估计条件概率P(X|Y)时出现概率为0的情况怎么办?

引入λ,当λ=1时称为拉普拉斯平滑。

3、太多小的数相乘,最后会四舍五入得到0.出现下溢出怎么办?

乘积取自然对数

生成模式和判别模式的区别:
生成模式:由数据学得联合概率分布,求出条件概率分布P(Y|X)的预测模型;
常见的生成模型有:朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)、限制玻尔兹曼机
判别模式:由数据学得决策函数或条件概率分布作为预测模型
常见的判别模型有:K近邻、SVM、决策树、感知机、线性判别分析(LDA)、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场

逻辑回归

贝叶斯回归spss 贝叶斯回归算法_条件概率_04


贝叶斯回归spss 贝叶斯回归算法_朴素贝叶斯_05


贝叶斯回归spss 贝叶斯回归算法_条件概率_06


贝叶斯回归spss 贝叶斯回归算法_概率分布_07


贝叶斯回归spss 贝叶斯回归算法_概率分布_08


贝叶斯回归spss 贝叶斯回归算法_条件概率_09


贝叶斯回归spss 贝叶斯回归算法_概率分布_10


贝叶斯回归spss 贝叶斯回归算法_概率分布_11


贝叶斯回归spss 贝叶斯回归算法_朴素贝叶斯_12


贝叶斯回归spss 贝叶斯回归算法_朴素贝叶斯_13


贝叶斯回归spss 贝叶斯回归算法_概率分布_14


贝叶斯回归spss 贝叶斯回归算法_贝叶斯回归spss_15


贝叶斯回归spss 贝叶斯回归算法_朴素贝叶斯_16


贝叶斯回归spss 贝叶斯回归算法_贝叶斯回归spss_17


贝叶斯回归spss 贝叶斯回归算法_概率分布_18


贝叶斯回归spss 贝叶斯回归算法_概率分布_19


贝叶斯回归spss 贝叶斯回归算法_贝叶斯回归spss_20