一、ROC曲线 ROC曲线:受试者工作特征曲线 出自一个军事案例;雷达兵为了传递更准确的预报需要区分触发雷达信号的是敌人还是飞鸟,但是过于谨慎的雷达兵的误报率较高,胆大的则漏报率更高。为了研究每个雷达兵预报的准确性,兵长汇总每个雷达兵的预报特点,以雷达兵准确预报的概率(敏感性)为纵坐标,以误报概率(特异性)为横坐标,绘制在二维坐标中。由于每个雷达兵预报标准不同所以得到敏感性和特异性的组合也不同,,汇总后刚好是一条曲线,这条曲线就是ROC曲线,这也是为什么叫受试者工作特征曲线的原因。 总结:若给定一个二元分类模型(相当于雷达兵)和其阈值(雷达兵判断的标准),对多个样本进行预测,计算和汇总每个预测值与实际值的关系。ROC曲线是将每个分类模型及其阈值最终的伪阳性率和真阳性率(相当于计算每个雷达兵预报的准确性)体现在,以伪阳性率(FPR)为x轴,真阳性率(TPR)为y轴的二维坐标中,形成的曲线。越靠近左上角的点准确率越高,反之越靠近右上角准确率越低。

理解二元分类模型和阈值 一个考试看做一个二元分类模型,它的结果只有两个:及格和不及格。阈值是60,是分类模型判断的准备,若高于60则及格,低于阈值则不及格。我们现在有无数场考试,我希望通过考试筛选出合格的人,剔除不合格的人,并且漏筛和错筛人数最少,阈值应设置在多少呢? 每种阈值的设定会得出不同的FPR和TPR,以此研究特定模型的最佳阈值 若要比较不同分类模型的分类效果时需要既定不变的阈值

二、AUC AUC(Area Under Curve):即ROC曲线与x坐标围成的面积,做为模型优劣的指标 ①由于AUC是FPR和TPR两个比率围成的面积,取值一定在[0,1] ②AUC值越大的分类器,正确率越高,AUC在 0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性 AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。 AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。 AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。