假设我们现在有垃圾邮件样本、正常邮件样本、测试邮件,其中
垃圾邮件样本:
1.点击、更多、信息
2.最新、产品
3. 信息、点击、链接
正常邮件样本:
1.开会
2.信息、详见、邮件
3.最新、信息
测试邮件:
最新、产品、实惠、点击、链接
下面是计算步骤。
1 条件概率
注: 红色字体为平滑操作
2 先验概率
3 计算
注:
- 由于 “实惠” 未出现在样本中,因此第二个等号中缺少 P(实惠|正常)
- 实际上第二个等号应为约等号
- P(新邮件)为标准化常量,难以计算
同理可计算出 P(垃圾|新邮件),将二者比较即可得出预测结果