文章目录

  • 九、独立性检验和正态性检验
  • 1.独立性检验
  • 2.一元数据正态性检验
  • 3.多元数据的正态性检验
  • 回顾总结


九、独立性检验和正态性检验

1.独立性检验

独立性检验,指的是将一个多元总体独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图划分成独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_02个部分,探究每个部分之间是否独立的问题,这样做的好处是显而易见的,如果一个总体独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03可以划分成多个独立的部分,那么只需要对每一个部分分开讨论即可,无疑降低了运算量。在多元统计中,可以视为有如下分解:
独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_04
每一个分向量独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_05都是独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_06维的,对应的独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_07也是独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_06维的,独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_09独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_10的。在多元正态分布的介绍中提到,如果独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_11是独立的,那么独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_12对任何独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_13都成立,反之也成立,因此在正态总体下,假设检验就变成了以下的形式:
独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_14
由于样本均值、样本离差阵是对总体均值、自协方差矩阵的估计,因此我们也可以对样本均值和样本离差阵作同型分解。如果独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_15成立,则独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_16且相互独立,那么似然函数就是
独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_17
取最大值的情况显然是独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_18,所以似然比统计量的分子是
独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_19
这里的转换可以用之前常用的迹变换得出。观察分子与分母,发现其大部分是相同的,所以得到似然比统计量为
独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_20
所以我们取检验统计量为
独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_21
并且有结论保证,在独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_15成立的条件下,独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_23,这里
独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_24
事实上独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_25独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_26的近似,故独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_27也是独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_28的近似,而独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_29就是两个参数空间的维度之差。

2.一元数据正态性检验

回顾我们之前提到的假设检验,包括均值向量、自协方差矩阵、独立性的检验,都基于一个前提——总体是多维正态分布,如果这个正态性不满足,与三大分布相关的统计量转化、似然比统计量的表现形式都将不同于此形式,从而无法应用已有的结论。因此,本节探讨样本的正态性检验,概括起来就是,给定独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_28独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_31维样本独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_32,判断总体独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03是否服从独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_34分布。

多元数据的正态性检验问题,常常转化为多个一元或二元数据的正态性检验,或者先求独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03的分量的线性组合再化为一元数据的正态性检验等。虽然我们知道,边缘分布的正态性不能推出总体分布的正态性,但是在实际应用中,这种情况并不常见,所以我们可以先将目光放在一元数据的正态性检验。

常用于一元数据检验的方法有Pearson 独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_36检验法(比较适合离散情形)、Kolmogorov检验法(比较适合连续情形),不过在Kolmogorov检验中我们需要得知总体的参数,即均值和方差,在实际应用中这个条件很难满足,所以我们会使用总体均值和总体方差代替,这就是Lilliefors检验。

还有一些仅适用于正态分布的检验法:偏度峰度检验法,Q-Q图和P-P图检验法、Anderson-Darling统计量检验法、Cramer-von Mises统计量检验法等。

偏度峰度法指的是,计算样本偏度和样本峰度:
独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_37
在正态性成立时,近似有
独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_38
很容易用Z检验找到其拒绝域。

Q-Q(Quantile Quantile)图检验法是一种图示检验法,绘制独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_39散点图,这里独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_40是样本的独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_41分位数,独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_42是样本的独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_41分位数,如果独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03是一元正态总体,则这些散点应该散布在一条直线上。P-P图检验法也是图示检验,绘制的数据点是独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_45,其中独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_41是经验分布函数独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_47独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_42上的值,独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_49独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_50独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_42上的值。在实际应用Q-Q图检验和P-P图检验时,独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_42要先选好。

Anderson-Darling 独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_53检验(AD检验)的检验统计量是
独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_54
这里独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_55是权重函数,如果权重函数取独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_56,就得到Cramer-von Mises 独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_57检验的检验统计量
独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_58
结合Kolmogorov-Smirnov统计量独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_59,这三个统计量都是原假设成立时不能过大的,依赖于一个概率表值来检验原假设是否应该被接受。不过,这三种检验方式适用于各种假设检验,只要将表达式中的独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_50换成对应的分布函数即可。

3.多元数据的正态性检验

对于二元数据,存在一种粗糙的检验方法:等概椭圆检验法。其理论基础是二维随机向量独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03如果来自于正态总体,则其概率密度函数等高线应该是一个椭圆,即独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_62时,应有
独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_63
所以我们计算二元数据独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_64独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_65的马氏距离独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_66,在给定数值独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_67下,独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_68的频率应该和某一个定值比较接近,这个定值可以通过查表获得。由于这是一种比较粗糙的方法,我们在实际应用中会使用更为正式的方法。

现在介绍独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_31维数据独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_36统计量的Q-Q图检验法,我们将假设确定为参数已知的,即
独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_71
由于在正态性假设独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_15成立的前提下,样本独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_03到中心独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_74的马氏距离存在以下关系:
独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_75
所以我们可以直观地想到验证样本的马氏距离是否具有这样的关系。因此,我们计算样本独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_32独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_74的马氏距离独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_78,并对独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_79进行排序得到次序统计量独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_80,计算其经验分布函数,这样有了经验分布函数与独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_81分布的分布函数后,就可以绘制Q-Q图或者P-P图。

在实际应用中,我们往往不知道独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_82的值,所以会用样本均值独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_65和样本协方差阵独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_84代替,得到的Q-Q图或P-P图应该是一条通过原点、斜率为1的直线,如果是这样,就可以接受正态性假设,否则应当拒绝。

回顾总结

  1. 正态总体的独立性检验,我们一般会取检验统计量为
    独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_85
    独立性检验检验一个数python代码实现 独立性检验的格式_独立性检验_86时,有独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_87,这里
    独立性检验检验一个数python代码实现 独立性检验的格式_正态性检验_88
  2. 一元总体的正态性检验有很多方法,如K-S检验、A-D检验、Cramer-von Mises检验,但K-S检验的效果一般,A-D检验的效果比较好,其检验统计量是
    独立性检验检验一个数python代码实现 独立性检验的格式_P-P图_89
  3. Q-Q图是分位数图,首先选定一组分位数间隙独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_90,然后在样本中寻找相应分位数,在总体中也寻找相应分位数,将分位数绘制成散点图,观察其是否位于一条直线上。
  4. P-P图是累计分布图,首先选定一组分位数间隙独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_90,然后绘制经验分布函数与总体分布函数在独立性检验检验一个数python代码实现 独立性检验的格式_Q-Q图_90处的取值,将两个取值绘制成散点图,观察其是否位于一条直线上。
  5. 多元总体的正态性检验采用独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_93统计量的Q-Q图检验法,计算样本到中心独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_94的马氏距离并排序,用Q-Q图判断是否属于独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_95分布,或用K-M检验法。马氏距离的定义如下:
    独立性检验检验一个数python代码实现 独立性检验的格式_多元统计分析_96