python混淆矩阵计算代码

原创

mob64ca12da2d62 2024-08-11 04:24:57 ©著作权

文章标签 混淆矩阵召回率 Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12da2d62的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python计算混淆矩阵的科普文章

引言

在机器学习和深度学习中，评估模型的性能是一个非常重要的步骤。混淆矩阵是一种可视化分类模型性能的工具。它能够帮助我们理解模型的预测结果，包括真正例（TP）、假正例（FP）、真负例（TN）和假负例（FN）。本文将深入探讨混淆矩阵的作用，并通过代码示例来展示如何在Python中计算和可视化混淆矩阵。

混淆矩阵基础

混淆矩阵是一个表格，用于描述分类模型的性能。下面是一个典型的混淆矩阵形式：

                预测为正 (Positive)   预测为负 (Negative)
实际为正 (Positive)     TP                 FN
实际为负 (Negative)    FP                 TN

TP（True Positive）: 实际为正且被预测为正的样本数。
TN（True Negative）: 实际为负且被预测为负的样本数。
FP（False Positive）: 实际为负但被预测为正的样本数。
FN（False Negative）: 实际为正但被预测为负的样本数。

这些指标共同反映了分类模型的性能。

在Python中计算混淆矩阵

我们将使用sklearn库中的confusion_matrix函数来计算混淆矩阵。首先，我们需要准备一些数据。以下是一个简单的代码示例，展示如何计算和可视化混淆矩阵。

代码示例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# 模拟真实和预测的标签
y_true = np.array([0, 0, 1, 1, 0, 1, 1, 0, 0, 1])
y_pred = np.array([0, 1, 1, 1, 0, 0, 1, 0, 1, 0])

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)

# 可视化混淆矩阵
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["Negative", "Positive"])
disp.plot(cmap=plt.cm.Blues)
plt.title("Confusion Matrix")
plt.show()

代码说明

在上述代码中，我们首先引入了必要的库。然后，我们定义了真实标签y_true和预测标签y_pred。接着，使用confusion_matrix函数计算混淆矩阵，并使用ConfusionMatrixDisplay进行可视化。可以很直观地看到不同类别的预测情况。

混淆矩阵的应用

混淆矩阵不仅可以帮助我们评估模型的准确性，还可以计算其他重要的性能指标，包括准确率、召回率和F1分数。它们的定义如下：

准确率（Accuracy）: 所有预测正确的样本占总样本的比例。 [ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} ]
召回率（Recall）: 正确预测的正样本占实际正样本的比例。 [ Recall = \frac{TP}{TP + FN} ]
F1分数（F1 Score）: 准确率和召回率的调和平均数。 [ F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} ] 其中，准确率是： [ Precision = \frac{TP}{TP + FP} ]

我们可以通过以下代码来计算这些指标：

from sklearn.metrics import accuracy_score, recall_score, f1_score

# 计算性能指标
accuracy = accuracy_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f'准确率: {accuracy:.2f}')
print(f'召回率: {recall:.2f}')
print(f'F1分数: {f1:.2f}')

状态图与旅行图示例

在实际应用中，混淆矩阵可以用于多种场景，比如文本分类、图像识别等。我们可以使用状态图和旅行图来更直观地展示模型评估的过程。

状态图

stateDiagram
    [*] --> 训练模型
    训练模型 --> 生成预测
    生成预测 --> 计算混淆矩阵
    计算混淆矩阵 --> 计算指标
    计算指标 --> [*]

旅行图

journey
    title 模型评估过程
    section 训练模型
      训练数据集: 5: 用户
      训练模型: 5: 系统
    section 生成预测
      输入测试数据: 4: 用户
      生成预测: 5: 系统
    section 计算混淆矩阵
      计算混淆矩阵: 5: 系统
    section 计算指标
      计算准确率: 4: 系统
      计算召回率: 4: 系统
      计算F1分数: 4: 系统