PR曲线和ROC曲线是数据挖掘中2个常见的评估指标(对于二分器而言),理解如下:

一、pr曲线:

1)y轴为precision,x轴为recall。

2)pr曲线上各个取值为当前p下,样本判断结果:大于p的为正样本,反之为负样本。

3)pr曲线从左到右的取值点,为p值降序下的锚点。

4)随着p值降低,越多样本判为正样本,recall不断增大,而precision则计算大于p的那些样本的precision(给定一些样本,模型预测的有多准),理论上precision不断降低,最小值为全量样本中正样本占比。

5)可知,pr曲线容易受到样本分布(训练样本中的正负样本比值)影响。

 

二、ROC/AUC

1)y轴是正样本的正判概率(对全量样本而言,正样本的召回率),x轴是负样本的误判概率(对于全量样本而言,负样本的判错率)。

2)同pr曲线,x轴和y轴的取值都是依据降序的p值计算而来。

3)随着p值不断降低,正样本召回率不断增大,而负样本的错判率也是不断增大,最后相交于(1,1)处。

4)ROC曲线计算过程中,不涉及到正负样本的比值(样本分布)的影响,只受到正样本集合或者负样本集合的影响。

5)物理含义:随机给出一个正样本和一个负样本,正样本预测概率大于负样本预测概率的程度。

 

总结:

1、pr曲线因为涉及到精确率precision计算,容易受到样本分布的影响。而roc曲线本质上是正样本或者负样本召回率计算,不收样本分布的影响。

2、区分精确率、准确率的区别:精确率是对于预测为正样本的那些样本而言,准确率是对于全量样本的预测结果(预测为正样本或者预测为负样本)而言。