python分类模型的混淆矩阵分类混淆矩阵

转载

轩辕 2024-02-21 13:54:12

文章标签 python分类模型的混淆矩阵分类矩阵混淆矩阵数据 文章分类 Python 后端开发

混淆矩阵简介

混淆矩阵是ROC曲线绘制的基础，同时它也是衡量分类型模型准确度中最基本，最直观，计算最简单的方法。

可以简单理解为：将一个分类模型的预测结果与正确结果做对比，将预测正确的统计量和预测错误的统计量分别写入一张矩阵图中，得到的这张图就是混淆矩阵了。

混淆矩阵的使用情况：因为混淆矩阵是用来评判模型结果的，属于模型评估的一部分。因此，混淆矩阵多用于判断分类器（Classifier）的优劣，适用于分类型的数据模型有：分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等。

混淆矩阵及其参数

以分类中最简单的二分类为例，我们的模型训练完之后会进行“0”和“1”的判断，专业词语是positive和negative的判断。

我们通过样本可以直接知道真实情况下，哪些数据结果是positive，哪些结果是negative。同时，我们也可以通过神经网络或者其它模型跑出结果，进而可以知道模型认为这些数据哪些是positive，哪些是negative。

这样就能得到这样四个基础指标：

1、真实值是positive，模型认为是positive的数量（True Positive=TP）
2、真实值是positive，模型认为是negative的数量（False Negative=FN）：这就是统计学上的第二类错误（Type II Error）
3、真实值是negative，模型认为是positive的数量（False Positive=FP）：这就是统计学上的第一类错误（Type I Error）
4、真实值是negative，模型认为是negative的数量（True Negative=TN）

将这四个指标一起呈现在表格中，就能得到如下这样一个矩阵，我们称它为混淆矩阵（Confusion Matrix）：

python分类模型的混淆矩阵分类混淆矩阵_分类