文章目录
- 1、什么是混淆矩阵
- 2、如何获取混淆矩阵
- 2.1 二分类
- 2.2 多分类
- 3、评估数据
- 3.1 Accuracy
- 3.2 Positive predictive value(PPV,Precision)
- 3.3 False discory rate(FDR)
- 3.4 False omission rete(FOR)
- 3.5 Negative predictive value(NPV)
- 3.6 True positive rate(TPR,Recall)
- 3.7 False positive rete(FPR),Fall-out
- 3.8 False negative rate(FNR),Miss rate
- 3.9 True negative rate(TNR)
- 3.10 KS值
- 3.11 ROC-AUC曲线
- 4、参考资料
1、什么是混淆矩阵
对于分类模型中,模型据测的结果有真和假两种情况,实际情况有分为正和负两种情况,因此呢,最终的结果会有呈现四种情况,也就是一个 的矩阵(n_classes表示分类类别),真正(True Positive),假正(False Positive),真负(True Negative),假负(False Negative)四个指标。
2、如何获取混淆矩阵
2.1 二分类
我们使用sklearn.matrix的confusion_matrix方法获取
- y_true:实际结果
- y_pred:预测结果
我们得到的这个矩阵是:(注:这个矩阵和混淆矩阵不同,混淆矩阵是TN与TP调换位置)
TN | FP |
FN | TP |
2.2 多分类
对于多分类,如何求得tn,fp,fn,tp呢
对于混线矩阵每一行表示真是类,每一列表示被预测类,M[i][j]表示类别为i被预测为j类别
代码如下:
3、评估数据
3.1 Accuracy
准确度:模型预测样本个数/模型总样本个数
Accuracy越大,说明模型的效果越好
3.2 Positive predictive value(PPV,Precision)
精度:模型为正类样本中,真正正类所占比例
Precision越大,模型越好
3.3 False discory rate(FDR)
错误发现率:模型预测为正类样本中,真正负类样本所占比例
FDR越小,模型越好
3.4 False omission rete(FOR)
错误遗漏率:预测为负类的样本正,真正正类所占比例。(模型正类漏掉比例)
FOR越小,模型越好
3.5 Negative predictive value(NPV)
阴性预测值:模型预测为负类样本中,真正样本所占比例
NPV越小,模型越好
3.6 True positive rate(TPR,Recall)
召回率:模型预测为正的样本数量占总的正类样本数量的比值
Recall越高,模型越好
3.7 False positive rete(FPR),Fall-out
假正率:模型预测的正类样本中,占模型负类样本比值
Fall-out越小,模型越好
3.8 False negative rate(FNR),Miss rate
缺失率:预测为负类样本中,正类样本所占比例
缺失值越小,模型越好
3.9 True negative rate(TNR)
真负类率:预测为负类样本中占所有预测为负类样本的比例
TNR越大,模型越好
3.10 KS值
3.11 ROC-AUC曲线
ROC曲线有fpr,tpr两个值获得
横坐标是fpr
纵坐标是tpr
曲线下方面积的值为auc(取值范围是[0.5,1.0])