机器学习的roc曲线 roc曲线原理

转载

JAVA小侠影 2023-10-19 13:17:58

文章标签 机器学习的roc曲线 ROC 机器学习正例临界值 文章分类 机器学习人工智能

一、ROC原理介绍

回到ROC上来，百度百科对roc的解释如下：ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大(AUC area under roc curve)，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

ROC关注两个指标：

true positive rate ( TPR = TP / [TP + FN] ) ------正例分对的概率

false positive rate

直观上，TPR代表能将正例分对的概率，FPR代表将负例错分为正例的概率，FPR 预测的是正例，但是实际上是负例。这部分在负例中占得比例。也就是将负例错分为正例的概率。

在ROC 空间中，每个点的横坐标是FPR，纵坐标是TPR，这也就描绘了分类器在TP（真正的正例）和FP（错误的正例）间的trade-off。ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve。我们知道，对于二值分类问题，实例的值往往是连续值，我们通过设定一个阈值，将实例分类到正类或者负类（比如大于阈值划分为正类）。因此我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC curve。ROC curve经过（0,0）（1,1），实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下，这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图1所示。

机器学习的roc曲线 roc曲线原理_机器学习的roc曲线