python 混淆矩阵热力图

精选原创

鱼弦CTO 2024-07-13 09:27:59 博主文章分类：基础 ©著作权

文章标签 混淆矩阵数据集模型预测 文章分类 Python 后端开发 私藏项目实操分享

©著作权归作者所有：来自51CTO博客作者鱼弦CTO的原创作品，请联系作者获取转载授权，否则将追究法律责任

介绍

混淆矩阵（Confusion Matrix）是评价分类模型性能的重要工具之一。它显示了模型预测结果与真实结果的比较情况，通过4种类型的结果（True Positive, False Positive, True Negative, False Negative）来总结分类性能。混淆矩阵热力图是混淆矩阵的一种可视化方式，通过颜色深浅来直观地展示数据分布。

应用使用场景

混淆矩阵热力图主要应用于以下场景：

分类问题评估：用于二分类和多分类问题，评估分类器性能。
模型改进：帮助发现哪些类别容易被误分类，从而针对性地改进模型。
不平衡数据集分析：在处理不平衡数据集时，观察模型在不同类别上的表现。

原理解释

混淆矩阵由一个方形矩阵构成，其维度与类别数相同，每个单元格表示预测类别与真实类别的组合情况。具体定义如下：

True Positive (TP)：正类样本被正确分类为正类。
False Positive (FP)：负类样本被错误分类为正类。
True Negative (TN)：负类样本被正确分类为负类。
False Negative (FN)：正类样本被错误分类为负类。

算法原理流程图及解释

流程图

+------------------+
|  数据准备       |
|  (训练集/测试集)  |
+--------+---------+
         |
         v
+------------------+
| 模型训练         |
| (选择分类算法)   |
+--------+---------+
         |
         v
+------------------+
|  模型预测        |
| (用测试集预测结果)|
+--------+---------+
         |
         v
+------------------+
|  构建混淆矩阵    |
| (根据预测和真实值)|
+--------+---------+
         |
         v
+------------------+
|  可视化         |
| (绘制热力图)    |
+------------------+

解释

数据准备：将数据集划分为训练集和测试集。
模型训练：选择合适的分类算法，通过训练集训练模型。
模型预测：使用测试集对模型进行预测，得到预测结果。
构建混淆矩阵：根据预测结果和真实标签生成混淆矩阵。
可视化：使用热力图将混淆矩阵可视化，更直观地展示分类性能。

应用场景代码示例实现

以Python中的Scikit-learn库为例，展示混淆矩阵热力图的实现：

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练模型
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# 构建混淆矩阵
cm = confusion_matrix(y_test, y_pred)

# 绘制热力图
plt.figure(figsize=(10,7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=data.target_names, yticklabels=data.target_names)
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix Heatmap')
plt.show()