CNN混淆矩阵怎么看

转载

技术极客之光 2024-09-13 21:50:14

文章标签 CNN混淆矩阵怎么看机器学习数据挖掘评价指标二分类 文章分类 机器学习人工智能

混淆矩阵

CNN混淆矩阵怎么看_评价指标

以一个简单的二分类问题为例，分类类型为positive和negative，那么根据真实值与预测值可以分为混淆矩阵的四个部分：

TP（左上角）：实际值和预测值皆为positive

FP（右上角）：实际值为negative，但预测确实positive

FN（左下角）：实际值为positive，但预测确实negative

TN（右下角）：实际值和预测值皆为negative

常见的评价指标有（详见）：

CNN混淆矩阵怎么看_数据挖掘_02

可以看到第一张图中，红色的两部分才是预测正确的，而紫色的部分是预测错误的，但错误和错误是不能简单的“一视同仁”。以看病为例，将生病的人误诊为没病，和将没病的人误诊为有病，两者都是误诊，但是犯错的成本明显有区别。

因而引出一个新的概念：ROC，ROC的横坐标为FPR=FP/(FP+TN)，意为将错误的分类成正确的比例；纵坐标为TPR，意为将正确的分类为正确的比例。这是两个不同角度的评价指标。

首先解释红色的虚线为“Random guess”，通俗来说就是“随便猜一个”的意思（如B），以二分类为例，那就是两个类型的可能性五五开，所以如果分类器的点在红虚线之下，那就还不如瞎猜，这个分类器也就没有什么实际作用了（如C）。

CNN混淆矩阵怎么看_评价指标_03

ROC曲线的横坐标和纵坐标其实是没有相关性的，所以不能把ROC曲线当做一个函数曲线来分析，应该把ROC曲线看成无数个点，每个点都代表一个分类器，其横纵坐标表征了这个分类器的性能。（详见https://zhuanlan.zhihu.com/p/26293316）

真猫-预测猫	真猫-预测狗
真狗-预测猫	真狗-预测狗

假设有猫和狗两类，TPR值越大，说明将真猫预测成真猫的能力越强，越小说明将真猫预测成狗的可能性更大；FPR值越大，说明将真狗预测成猫的可能性更大，越小说明将真狗预测成真狗的可能性越大。所以说，最好的的情况是，TPR=1,FPR=0,即左上角的分类器越好，但事实是，鱼与熊掌不可兼得，所以就要根据实际情况来看，究竟最求更少的“真猫预测成狗”还是更少的”真狗预测成猫“。
当无所谓二者时，又可以用AUC来评判分类器性能，AUC的概念和ROC相关，即分类器曲线之下的面积大小，一般而言越大越好，面积通常在[0.5，1]，因为前文说过小于0.5也没有什么意义。

lift anlaysis（可见https://www.jianshu.com/p/ff0eb70d31ec）
Lift是评估一个预测模型是否有效的一个度量；它衡量的是一个模型（或规则）对目标中“响应”的预测能力优于随机选择的倍数，以1为界线，大于1的Lift表示该模型或规则比随机选择捕捉了更多的“响应”，等于1的Lift表示该模型的表现独立于随机选择，小于1则表示该模型或规则比随机选择捕捉了更少的“响应”。
一个模型随机预测的能力为x，改良过后为x‘，那么他的lift=x’/x，即可计算出。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。