分类算法(下)
贝叶斯网络简介
变量之间的相互影响比较清楚。
对于上述的x和y来说我们有许多具体的场景,比如:
y代表某种疾病、x代表某种症状。我们就可以计算出在某种症状发生的条件下,会得这种疾病的概率。
朴素贝叶斯分类模型
训练主要是计算先验概率。
以上可以引入一个垃圾邮件的识别:
- x可以作为一个垃圾邮件特征词汇的集合。p(x|y)就是y是垃圾邮件时出现目标词汇的概率。他们词之间相互独立就可以想乘。
- 第二个公式我们就可以预测某一个词、或者这几个词出现的时候,这个邮件是垃圾邮件的概率。
- 估计y的后验概率。
分类模型预测的三个阶段
确定分类问题(垃圾邮件分类、疾病的症状与确诊匹配、)
=>准备样本(垃圾邮件识别中,我们应该给出的样本就是垃圾邮件和重要的词汇)建立特征
=>获取训练样本
=>计算先验概率
=>新的样本同样的特征提取,之后带入到我们训练概率模型中,即可得出他是各个类别的概率
如果我们朴素贝叶斯模型,已经获取了一批人工标注好的垃圾邮件和样本,我们计算先验概率。如果之后有了新的邮件来临,我同样在这封邮件中以同样的方法抽取词汇,抽取之后带入到模型中,根据这些抽取的词就可以判断这是正常邮件和垃圾邮件的概率。
贝叶斯网络模型
y是yes的简写
以上的就是一个简单的网络,当我们影响决策变量之间的指标有一定的相关性的话,我们可以将他们的相关性或者说他们的因果关系表示成有向无环图。
贝叶斯网络的应用