文章目录
- 九、独立性检验和正态性检验
- 1.独立性检验
- 2.一元数据正态性检验
- 3.多元数据的正态性检验
- 回顾总结
九、独立性检验和正态性检验
1.独立性检验
独立性检验,指的是将一个多元总体划分成个部分,探究每个部分之间是否独立的问题,这样做的好处是显而易见的,如果一个总体可以划分成多个独立的部分,那么只需要对每一个部分分开讨论即可,无疑降低了运算量。在多元统计中,可以视为有如下分解:
每一个分向量都是维的,对应的也是维的,是的。在多元正态分布的介绍中提到,如果是独立的,那么对任何都成立,反之也成立,因此在正态总体下,假设检验就变成了以下的形式:
由于样本均值、样本离差阵是对总体均值、自协方差矩阵的估计,因此我们也可以对样本均值和样本离差阵作同型分解。如果成立,则且相互独立,那么似然函数就是
取最大值的情况显然是,所以似然比统计量的分子是
这里的转换可以用之前常用的迹变换得出。观察分子与分母,发现其大部分是相同的,所以得到似然比统计量为
所以我们取检验统计量为
并且有结论保证,在成立的条件下,,这里
事实上是的近似,故也是的近似,而就是两个参数空间的维度之差。
2.一元数据正态性检验
回顾我们之前提到的假设检验,包括均值向量、自协方差矩阵、独立性的检验,都基于一个前提——总体是多维正态分布,如果这个正态性不满足,与三大分布相关的统计量转化、似然比统计量的表现形式都将不同于此形式,从而无法应用已有的结论。因此,本节探讨样本的正态性检验,概括起来就是,给定个维样本,判断总体是否服从分布。
多元数据的正态性检验问题,常常转化为多个一元或二元数据的正态性检验,或者先求的分量的线性组合再化为一元数据的正态性检验等。虽然我们知道,边缘分布的正态性不能推出总体分布的正态性,但是在实际应用中,这种情况并不常见,所以我们可以先将目光放在一元数据的正态性检验。
常用于一元数据检验的方法有Pearson 检验法(比较适合离散情形)、Kolmogorov检验法(比较适合连续情形),不过在Kolmogorov检验中我们需要得知总体的参数,即均值和方差,在实际应用中这个条件很难满足,所以我们会使用总体均值和总体方差代替,这就是Lilliefors检验。
还有一些仅适用于正态分布的检验法:偏度峰度检验法,Q-Q图和P-P图检验法、Anderson-Darling统计量检验法、Cramer-von Mises统计量检验法等。
偏度峰度法指的是,计算样本偏度和样本峰度:
在正态性成立时,近似有
很容易用Z检验找到其拒绝域。
Q-Q(Quantile Quantile)图检验法是一种图示检验法,绘制散点图,这里是样本的分位数,是样本的分位数,如果是一元正态总体,则这些散点应该散布在一条直线上。P-P图检验法也是图示检验,绘制的数据点是,其中是经验分布函数在上的值,是在上的值。在实际应用Q-Q图检验和P-P图检验时,要先选好。
Anderson-Darling 检验(AD检验)的检验统计量是
这里是权重函数,如果权重函数取,就得到Cramer-von Mises 检验的检验统计量
结合Kolmogorov-Smirnov统计量,这三个统计量都是原假设成立时不能过大的,依赖于一个概率表值来检验原假设是否应该被接受。不过,这三种检验方式适用于各种假设检验,只要将表达式中的换成对应的分布函数即可。
3.多元数据的正态性检验
对于二元数据,存在一种粗糙的检验方法:等概椭圆检验法。其理论基础是二维随机向量如果来自于正态总体,则其概率密度函数等高线应该是一个椭圆,即时,应有
所以我们计算二元数据到的马氏距离,在给定数值下,的频率应该和某一个定值比较接近,这个定值可以通过查表获得。由于这是一种比较粗糙的方法,我们在实际应用中会使用更为正式的方法。
现在介绍维数据统计量的Q-Q图检验法,我们将假设确定为参数已知的,即
由于在正态性假设成立的前提下,样本到中心的马氏距离存在以下关系:
所以我们可以直观地想到验证样本的马氏距离是否具有这样的关系。因此,我们计算样本到的马氏距离,并对进行排序得到次序统计量,计算其经验分布函数,这样有了经验分布函数与分布的分布函数后,就可以绘制Q-Q图或者P-P图。
在实际应用中,我们往往不知道的值,所以会用样本均值和样本协方差阵代替,得到的Q-Q图或P-P图应该是一条通过原点、斜率为1的直线,如果是这样,就可以接受正态性假设,否则应当拒绝。
回顾总结
- 正态总体的独立性检验,我们一般会取检验统计量为
当时,有,这里 - 一元总体的正态性检验有很多方法,如K-S检验、A-D检验、Cramer-von Mises检验,但K-S检验的效果一般,A-D检验的效果比较好,其检验统计量是
- Q-Q图是分位数图,首先选定一组分位数间隙,然后在样本中寻找相应分位数,在总体中也寻找相应分位数,将分位数绘制成散点图,观察其是否位于一条直线上。
- P-P图是累计分布图,首先选定一组分位数间隙,然后绘制经验分布函数与总体分布函数在处的取值,将两个取值绘制成散点图,观察其是否位于一条直线上。
- 多元总体的正态性检验采用统计量的Q-Q图检验法,计算样本到中心的马氏距离并排序,用Q-Q图判断是否属于分布,或用K-M检验法。马氏距离的定义如下: