生存分析图 r语言调整图例_ci


概述

ROC曲线分析是用于评估一个因素预测能力的手段,是可以用于连续型变量分组的方法。在生存分析中,疾病状态和因素取值均会随时间发生变化。而标准的ROC曲线分析将个体的疾病状态和因素取值视作固定值,未将时间因素考虑在分析之中。在这种情况下,使用时间依赖性ROC无疑是更好的选择。本文会对时间依赖性ROC曲线的原理进行讲解,并在下一篇基于R语言对时间依赖性ROC曲线的使用与绘制进行阐述。

原理

时间依赖性ROC曲线有(1) cumulative/dynamic(C/D)、(2) incident/dynamic(I/D)和(3) incident/static(I/S)三种定义,其中cumulative/dynamic(C/D)是比较适合用于生存分析的定义,也是当前大多数研究使用的方法。cumulative/dynamic(C/D)中cumulative是指Cumulative sensitivity,dynamic是指dynamic specificity。

对于任意时间t,每一个个体会按照其在时间t的状态被划分到病例组或对照组。在cumulative/dynamic中,如果一个个体在时间0和时间t之间发病,那么其会被划分到病例组(图中A、B和E);如果一个个体在时间0和时间t之间没有发病,那么其会被划分到病例组(图中C、D和F)。


生存分析图 r语言调整图例_生存分析图 r语言调整图例_02


在阈值为c的情况下,相应的敏感性和特异性计算公式如下:


生存分析图 r语言调整图例_ci_03


通过上述公式计算不同阈值下的敏感性和特异性我们即可得到时间t下的ROC曲线。结合上图可以轻易的看出,个体被划分到病例组还是对照组会随着时间t取值的变化而发生变化。假设图中的t增大,那么划分到病例组的个体就会变成A、B、C和E,对照组则会变成D和F。在此情形下,相应的ROC曲线也会发生变化。

优点

一般来说,因素测量时间距离时间发生时间越远,其预测能力就可能变得越弱。就比如说用一个人三年前的血压水平来预测这个人患高血压的概率肯定要比用一年前的血压水平效果要差。时间依赖性ROC曲线的优点就在于它可以利用每个个体发病时间的附加信息,可以在多个时间点构建ROC曲线,并比较因素的预测能力。这能够使我们知道在多长的时间范围内我们进行生存分析是有效的,以及在这个时间范围内如何对连续型变量进行分组是最恰当的。