P | N | 合计 | |
T | TP | FN | P |
F | FP | TN | N |
合计 | P’ | N’ | P+ N |
混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。
2、分类器涉及的常见评估度量:
度量 | 公式 |
准确率 | (TP+TN)/(P+N) |
错误率 | (FP+FN)/(P+N) |
真正例率 / 召回率 / 查全率 | TP / (TP+FN) |
真负例率 | TN / N |
查准率 / 精度 | TP / P’ = TP / (TP+FP) |
假正例率 | FP / N = FP / (FP+TN) |
F1 分数 | 2*(查准率查全率)/ (查准率+查全率)=2TP /(P+N+TP-TN) |
3、ROC 曲线
横轴:假正例率 FPR=FP / N = FP / (FP+TN)
纵轴:真正例率 TPR=TP / (TP+FN)
1)、概率分类器对10个测试样本返回的预测概率值的排序表
ROC 曲线之下的那部分面积值就是模型的 AUC 值。
如果模型真的很好,随着有序列表向下移动,开始会遇到真正例样本,曲线将陡峭的从 0 开始上升;之后 ,遇到的真正例样本越来越少,假正例样本越来越多,曲线变得平缓趋于水品。
参考链接1参考链接二