很多医学生及医生经常会对诊断实验进行评价,评价诊断试验的常用指标及计算方法都比较容易掌握,但是少有人知道其相应的95%的置信区间的计算方法。我们简单的回顾一下,诊断试验评价的基本方法是用所谓的“金标准”,确诊区分患者和非患者,再应用待评价的方法测定这些研究对象,然后比较两种方法的一致性。

预测值

阳性

阴性

实际值

患者

a

b

非患者

c

d

公式法

评价诊断试验的常用指标主要有灵敏度、特异度、一致率、Youden指数、似然比等,由于灵敏度、特异度、似然比都是率或百分比变量,因此,相应的置信区间可以采用标准的率或百分比的方法来计算。例如,灵敏度 (Sensitivity, Se) 是指真实患者中诊断结果为阳性的概率,反映了正确诊断某种疾病的能力。其标准误和置信区间的计算可按照正态近似法利用率的标准误和置信区间进行。

机器学习置信区间 算置信区间_似然比

开源网站实例 

具体计算可以用R软件reportROC包实现,今天提供一个小技巧计算置信区间,输入以下链接: http://vassarstats.net/clin1.html#return

实际值

非患者

患者

预测值

阳性

c

a

阴性

d

b

假设上面表格 a、b、c、d 分别为125、10、25、120,可以得到以下结果,其中红色标记的 Sensitivity、Specificity、Positive、 Negative 分别是指灵敏度、特异度、阳性似然比和阴性似然比的95%置信区,带有[W]的 Positive 和 Negative 表示校正患病率后的似然比。

机器学习置信区间 算置信区间_ci_02

 另外采用如上的灵敏度置信区间公式计算灵敏度的置信区间,得到的灵敏度的置信区为 (0.88, 0.97) ,由于置信区间的计算原理不同,公式法与网站的结果稍有差异,大家使用时注明参考文献即可。

补充

威尔逊置信区间

由于正态区间对于小样本并不可靠,因而,1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为“威尔逊区间”,很好地解决了小样本的准确性问题。

机器学习置信区间 算置信区间_.net_03

在上面的公式中,^p表示样本的”赞成票比例”,n表示样本的大小,z表示对应某个置信水平的z统计量,这是一个常数,可以通过查前文表得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。
威尔逊置信区间的均值为

机器学习置信区间 算置信区间_python_04

下限为:

机器学习置信区间 算置信区间_ci_05

可以看到:当n的值足够大时,这个下限值会趋向^p。如果n非常小(投票人很少),这个下限值会大大小于p,实际上,起到了降低”赞成票比例”的作用,使得该项目的得分变小、排名下降。
根据离散型随机变量的均值和方差定义:
μ=E(X)=0*(1-p)+1*p=p
σ=D(X)=(0-E(X))2(1-p)+(1-E(X))2p=p2(1-p)+(1-p)2p=p2-p3+p3-2p2+p=p-p2=p(1-p)
因此上面的威尔逊区间公式可以写成:

机器学习置信区间 算置信区间_.net_06