1.   什么是多重比较问题?什么事FWE(Family Wise Error)校正。

在很多科学领域,我们都会遇到在多次统计比较的情况下判断显著性的问题。如果我们只做了一次统计分析,通常只要把P值设定在0.05,将我们犯错误的可能限制在5%的范围内,即小概率事件中即可。

 

然而,在神经影像学领域,通过需要进行成千上万次的统计对比。以任务态fMRI为例,为了得到与某个认知功能相关的脑区定位,通常要在全脑范围内去寻找激活区。也就是说要对每个体素进行一次统计分析。假设将全脑由10万个体素组成,那我们就要进行10万次统计分析。在这么庞大的基数面前,几乎可以肯定你能得到上百次的显著结果,即上百个假阳性(False Positive)的体素。为了避免假阳性的结果,研究者们通常要对P值按照“统计比较”的次数进行校正。这种方法即FEW校正,他能够有效的降低I类错误的发生概率。

 

标准的FWE校正方法即Bonferroni校正,将单次比较情况下的P值(通常为0.05)除以整个实验的比较次数(如10万次),用得到的新P值(0.05/100000)来判断结果的显著性,即完成了Bonferroni校正。这是个非常保守的校正方法,并且在神经影像学的研究中有着致命的缺点。Bonferroni的本意是要对完全“独立”的“比较次数”进行校正,而实际上,脑内体素间的信号并非如此。

 

2. 什么是高斯随机场理论(Gaussian Random-Field Theory),如何用他做FWE校正?

RFT(Random-Field Theory)校正假设数据在空间变异上有着确定的模式,统计量的分布可以用平滑后的随机场来模拟。通过计算真实的统计图的平滑度,估计脑内体素(或团块)在特定的统计水平下随机产生的可能性。RFT校正最大的优势是引入了平滑度来做判断。在空间相关性较高的情况下(平滑度较大),Bonferroni校正显得太过严苛,而RFT要宽大的多,也更合理。RFT校正在计算上也很便捷,并不耗时。然而,RFT也有缺点,他基于的前提假设过多。其中最大的假设是,数据的平滑度要达到一定水平才能适用于这种方法—平滑度至少是体素大小的2-3倍。在某些研究中,如果你不想牺牲掉图像的空间分辨率的话,RFT方法就不太合适了。RFT是SPM软件包的默认校正方法,当你选择“FWE correction”的时候,你采用的就是RFT校正。

3. 什么是FDR(False Discovery Rate)校正?他与其他多重比较校正方法有什么不同?

FWE校正是为了控制N次统计比较后,随机情况下可能产生的假阳性事件。他可以确保任何假阳性出现在我们结果中的概率在5%以内,也就是结果中几乎没有假阳性,每个显著的体素都是真正的被激活了。而这与实际情况并非完全一致,因为在数据分析的过程中,每一步都会带入一些干扰而使得小部分本没有激活的体素变的显著了。也就是说,研究者实际上是可以接受结果中存在一定的假阳性,而这正是FWE校正想控制的。与FWE校正不同,FDR校正并不保证你的结果中没有假阳性,而是将假阳性的结果控制在很小的范围(如5%)。从二者的名字上,也可见差别。如果FDR校正后,你有100个体素激活了,我们可以肯定其中5个是假阳性的,但是你并不知道是哪5个。相对来说,FDR校正要比RFT校正更宽大一点,但是每个研究者必须知道他们付出的代价是,结果中有一些假阳性的体素。SPM和AFNI软件包中都有FDR校正的方法。

 

4. 什么是置换检验(Permutation Testing)?他与其他类型的多重比较校正有什么不同?

置换检验是非参数检验的一种方法,可以较为敏感的控制FWE。重要的是,他对数据本身的特征不需要前提假设。假设fMRI试验中,你操纵的变量,你的设计矩阵,能够很好的解释数据的变异,有着较高的beta值。通过参数检验(如F检验)可以对结果定性,显著还是不显著。但是置换检验的思路不同。他需要你对设计矩阵中变量的分类进行多次的随机分配,比如将某个刺激条件和控制条件对调,患者和对照的分组进行对调等等。每次随机化后,你都会得到一个beta值。若干次后(比如5000次),你就得到了beta值的分布图。基于此图,可以判断真实分配情况下的beta值是否属于小概率事件,也即是否显著。置换检验的思想就是不对数据的统计分布做任何假设,完全基于数据本身的特征来检验显著性。

 

不过,貌似这和多重比较校正没什么关系嘛。上面一段话只是针对一个体素说的,如果我们把这个体素换成一个全脑影像图呢?得到的就是一张伪彩色图(每个体素的显著性都不同,颜色代表强弱),而每一副图中,都有一个最强的点(point with maximal statistic,Pmax)。我们把每次随机分配后得到的最强点的值拿出来,可以得到一个分布直方图,可称之为Pmax的分布图。而真实分组情况下,我们也可以得到每个体素的统计值。通过Pmax即可判断真实情况下每个体素的显著性。值得注意的是,Pmax中的值挑选的是每次随机后,全脑范围内最强的点。因此,如果某个体素的统计值超过了这种极端情况下的95%的值,我们就认为它是经得起校正的,即校正后显著。


置换检验不需要前提假设,但是要对数据进行若干次的随机化分析。因此,如果数据量本身就很大的话,整个统计过程会很耗时。SPM的SnPM Toolbox以及AFNI的3dMonteCarlo Program可实现置换检验。