学习笔记

学习书目:《统计学:从数据到结论》–吴喜之



非参数检验



  • 啥是非参数检验

很多检验都假定总体的背景分布,但也有些检验没有假定总体分布的具体形式,这些检验多根据数据观测值的相对大小建立检验统计量,然后找到在零假设下这些统计量的分布,并且看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。



  • 非参数检验的优越性

在分布未知时,如果还假定总体有诸如正态分布那样的己知分布,在进行推断性统计时,就可能产生错误甚至灾难。非参数检验总是比传统检验安全,但在总体分布形式已知时,非参数检验就不如传统方法效率高,这是因为非参数的方法利用的信息要少一些,往往在传统方法可以拒绝零假设的情况下,非参数检验无法拒绝。但非参数统计在总体分布未知时,效率要比假定了错误总体分布时的传统方法要高,有时要高很多.



关于单样本位置检验



符号检验



符号检验,它是对位置参数中位数的检验,而且不需要任何关于总体的假定。当然,对于像正态分布或R语言与非参数检验之单样本位置检验_R语言分布那样的对称分布,总体中位数就是总体均值.这时,对中位数的检验等价于对均值的检验.

检验一般以两种形式出现,一种是看中位数或R语言与非参数检验之单样本位置检验_中位数_02分位数是否是某个事先认定的值(零假设),一种是大于(或小于)某数的观测值是否为一个事先认定的比例(零假设).

符号秩检验的原理是这样的,有样本R语言与非参数检验之单样本位置检验_正态分布_03,如果零假设为中位数R语言与非参数检验之单样本位置检验_数据_04,则需要计算在n个差R语言与非参数检验之单样本位置检验_正态分布_05中有多少正负符号,即可利用二项分布的概率来计算R语言与非参数检验之单样本位置检验_正态分布_06值,进而判断是否拒绝原假设。



Wilcoxon符号秩检验



符号检验利用了观察值和零假设的中位数之差的符号来进行检验,但是它并没有利用这些差的绝对值大小所包含的信息,不同的符号仅仅代表了在中位数的哪一边,而差的绝对值的秩的大小代表了距离中心的远近。如果把这两者结合在一起,自然比仅仅利用正负号的数目要更有效。这也是马上要引入的Wilcoxon符号秩检验的宗旨,它把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。

与符号检验不同,Wilcoxon符号秩检验对数据总体分布有一点了解,它要求假定样本点来自连续对称总体分布,而符号检验不需要知道任何总体分布的性质。

Wilcoxon符号秩检验的原理是这样的,假定R语言与非参数检验之单样本位置检验_正态分布_03为来自连续对称总体的一个样本,如果零假设为中位数R语言与非参数检验之单样本位置检验_数据_04, 则需要把R语言与非参数检验之单样本位置检验_正态分布_09排序,得到R语言与非参数检验之单样本位置检验_正态分布_09的秩,然后把R语言与非参数检验之单样本位置检验_数据_11的符号加到相应的秩上面。于是,可以得到既有带正号的秩,又有带负号的秩.对带负号的秩的绝对值求和.即把满足R语言与非参数检验之单样本位置检验_非参数检验_12R语言与非参数检验之单样本位置检验_正态分布_09的秩求和,并用R语言与非参数检验之单样本位置检验_中位数_14表示;类似地,对带正号的秩的绝对值也求和,即把满足R语言与非参数检验之单样本位置检验_数据_15R语言与非参数检验之单样本位置检验_正态分布_09的秩求和,并用R语言与非参数检验之单样本位置检验_正态分布_17表示.如果R语言与非参数检验之单样本位置检验_数据_18的确是中位数,那么R语言与非参数检验之单样本位置检验_中位数_14R语言与非参数检验之单样本位置检验_正态分布_17应该大体上差不多。如果R语言与非参数检验之单样本位置检验_中位数_14R语言与非参数检验之单样本位置检验_正态分布_17过大或过小,则怀疑中位数R语言与非参数检验之单样本位置检验_数据_04的零假设. 令R语言与非参数检验之单样本位置检验_R语言_24,则当R语言与非参数检验之单样本位置检验_中位数_25太小时,应该拒绝零假设,这个R语言与非参数检验之单样本位置检验_中位数_25就是Wilcoxon符号秩检验统计量。



R语言实现



我们现在有一个样本量为40的样本(假设总体分布是对称的):

74.3  78.8  68.8  78.0  70.4  80.5  80.5  69.7  71.2  73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5



经过计算,样本中位数为73.5,现在我做出如下零假设:
R语言与非参数检验之单样本位置检验_中位数_27

现在我用上面学过的两种方法进行检验。

符号检验:

> pbinom(sum(new_data>74), 40, 0.5)
[1] 0.4373147



Wilcoxon符号秩检验:

> wilcox.test(new_data, m=74, alternative = "less")

Wilcoxon signed rank test with continuity correction

data: new_data
V = 360, p-value = 0.2527
alternative hypothesis: true location is less than 74

可以看到,虽然两个检验都不能拒绝原假设,但是Wilcoxon符号秩检验的R语言与非参数检验之单样本位置检验_正态分布_06值要比符号检验的R语言与非参数检验之单样本位置检验_正态分布_06值小很多。所以,当数据来自对称分布时,Wilcoxon符号秩检验比符号检验效率要高。