机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现

原创

qq5b42bed9cc7e9 2022-11-01 16:56:11 博主文章分类：统计学习 ©著作权

文章标签 机器学习算法分类朴素贝叶斯贝叶斯算法 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者qq5b42bed9cc7e9的原创作品，请联系作者获取转载授权，否则将追究法律责任

贝叶斯算法及朴素贝叶斯

贝叶斯算法及朴素贝叶斯

朴素贝叶斯

原理
算法推导

条件独立假设

参数估计

极大似然估计
贝叶斯估计

贝叶斯算法实现

准备数据
GaussianNB 高斯朴素贝叶斯
极大似然估计的一般步骤

贝叶斯算法及朴素贝叶斯

朴素贝叶斯

原理

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 𝑃(𝑋,𝑌) ，然后求得后验概率分布 𝑃(𝑌|𝑋) 。具体来说，利用训练数据学习 𝑃(𝑋|𝑌) 和 𝑃(𝑌) 的估计，得到联合概率分布：
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯$
概率估计方法可以是极大似然估计或贝叶斯估计。
朴素贝叶斯法的基本假设是条件独立性，
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_02$

这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。
朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_03$
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_03$

将输入 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_05$ 分到后验概率最大的类 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_06$ 。

$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_07$

后验概率最大等价于0-1损失函数时的期望风险最小化。

模型：

高斯模型
多项式模型
伯努利模型

算法推导

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.

贝叶斯定理
特征条件独立假设

条件独立假设

求 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_08$ ，其中 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_09$ ，条件独立假设这里给定 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_10$ 的情况下：

每一个 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_11$ 和其他的每个 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_12$ 是条件独立的
每一个 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_11$ 和其他的每个 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_12$ 的子集是条件独立的

条件独立性假设是:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P(X=x|Y=c_k)&=…
上面这个公式可能看起来不是太容易理解独立在哪里，这里引用一下文献[^2]中关于贝叶斯算法推导中的一部分
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_15$
红色部分从上到下基于I.I.D.

条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的.

参数估计

极大似然估计

为了估计状态变量的条件分布, 利用贝叶斯法则, 有
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_16$
其中 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_17$ 为给定 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_10$ 下 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_19$ 的后验概率(Posterior)， $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_08$ 称为似然， $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_21$ 称为先验(Prior)。

后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。
后验，观察到 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_22$ 之后，对 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_23$ 的信念

贝叶斯估计

对于 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_05$ 的某个特征的取值没有在先验中出现的情况，如果用极大似然估计，这种情况的可能性就是0。
但是出现这种情况的原因通常是因为数据集不能全覆盖样本空间，出现未知的情况处理的策略就是做平滑。
公式(4.10)对应了出现未知样本的情况下，该给出一个什么样的值才合理的方案。

$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_25$
其中 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_26$

当 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_27$ 的时候，就是极大似然估计。

当 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_贝叶斯算法_28$ 的时候，这个平滑方案叫做Laplace Smoothing。拉普拉斯平滑相当于给未知变量给定了先验概率。

遇到问题找已知例题4-1，：

先验Prior，通过统计Y的数据分布可以知道
不同 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_23$ 和 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_22$ 的组合会产生多少参数， $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_贝叶斯算法_31$ 可能的取值集合 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_32$ 大小为 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_33$ ， $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_贝叶斯算法_34$ 可能的取值集合 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_35$ 大小为 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_36$ ， $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_37$ 大小为 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_38$
参数的数量为 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_39$ ，具体的空间的分布是一个 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_机器学习_40$ 的三维矩阵
每个特征的增加，本来应该在原来的 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_贝叶斯算法_41$ 的基础上增加 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_42$ 倍的维度，但因为做了特征条件独立假设，增加的可能性，是base在给定的标签 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_22$ 上的，也就是说实际上增加了 $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_42$ 个取值
朴素贝叶斯法中假设输入变量都是条件独立的，如果假设他们之间存在概率依存关系，模型就变成了贝叶斯网络。、

贝叶斯算法实现

准备数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

from collections import Counter
import math
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    # print(data)
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

GaussianNB 高斯朴素贝叶斯

特征的可能性被假设为高斯

概率密度函数：
$机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_算法_45$

数学期望(mean)： $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_分类_46$

方差： $机器学习从入门到精通——贝叶斯算法及朴素贝叶斯原理推导实现_朴素贝叶斯_47$

class NaiveBayes:
    def __init__(self):
        self.model = None

    # 数学期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))

    # 标准差（方差）
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))

    # 概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent

    # 处理X_train
    def summarize(self, train_data):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        return summaries

    # 分类别求出数学期望和标准差
    def fit(self, X, y):
        labels = list(set(y))
        data = {label: [] for label in labels}
        for f, label in zip(X, y):
            data[label].append(f)
        self.model = {
            label: self.summarize(value)
            for label, value in data.items()
        }
        return 'gaussianNB train done!'

    # 计算概率
    def calculate_probabilities(self, input_data):
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        return probabilities

    # 类别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(
            self.calculate_probabilities(X_test).items(),
            key=lambda x: x[-1])[-1][0]
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))