学习笔记
学习书目:《统计学:从数据到结论》–吴喜之
非参数检验
- 啥是非参数检验
很多检验都假定了总体的背景分布,但也有些检验没有假定总体分布的具体形式,这些检验多根据数据观测值的相对大小建立检验统计量,然后找到在零假设下这些统计量的分布,并且看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。
- 非参数检验的优越性
在分布未知时,如果还假定总体有诸如正态分布那样的己知分布,在进行推断性统计时,就可能产生错误甚至灾难。非参数检验总是比传统检验安全,但在总体分布形式已知时,非参数检验就不如传统方法效率高,这是因为非参数的方法利用的信息要少一些,往往在传统方法可以拒绝零假设的情况下,非参数检验无法拒绝。但非参数统计在总体分布未知时,效率要比假定了错误总体分布时的传统方法要高,有时要高很多.
关于单样本位置检验
符号检验
符号检验,它是对位置参数中位数的检验,而且不需要任何关于总体的假定。当然,对于像正态分布或分布那样的对称分布,总体中位数就是总体均值.这时,对中位数的检验等价于对均值的检验.
检验一般以两种形式出现,一种是看中位数或分位数是否是某个事先认定的值(零假设),一种是大于(或小于)某数的观测值是否为一个事先认定的比例(零假设).
符号秩检验的原理是这样的,有样本,如果零假设为中位数,则需要计算在n个差中有多少正负符号,即可利用二项分布的概率来计算值,进而判断是否拒绝原假设。
Wilcoxon符号秩检验
符号检验利用了观察值和零假设的中位数之差的符号来进行检验,但是它并没有利用这些差的绝对值大小所包含的信息,不同的符号仅仅代表了在中位数的哪一边,而差的绝对值的秩的大小代表了距离中心的远近。如果把这两者结合在一起,自然比仅仅利用正负号的数目要更有效。这也是马上要引入的Wilcoxon符号秩检验的宗旨,它把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。
与符号检验不同,Wilcoxon符号秩检验对数据总体分布有一点了解,它要求假定样本点来自连续对称总体分布,而符号检验不需要知道任何总体分布的性质。
Wilcoxon符号秩检验的原理是这样的,假定为来自连续对称总体的一个样本,如果零假设为中位数, 则需要把排序,得到的秩,然后把的符号加到相应的秩上面。于是,可以得到既有带正号的秩,又有带负号的秩.对带负号的秩的绝对值求和.即把满足 的的秩求和,并用表示;类似地,对带正号的秩的绝对值也求和,即把满足 的的秩求和,并用表示.如果的确是中位数,那么和应该大体上差不多。如果或过大或过小,则怀疑中位数的零假设. 令,则当太小时,应该拒绝零假设,这个就是Wilcoxon符号秩检验统计量。
R语言实现
我们现在有一个样本量为40的样本(假设总体分布是对称的):
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
经过计算,样本中位数为73.5,现在我做出如下零假设:
现在我用上面学过的两种方法进行检验。
符号检验:
> pbinom(sum(new_data>74), 40, 0.5)
[1] 0.4373147
Wilcoxon符号秩检验:
> wilcox.test(new_data, m=74, alternative = "less")
Wilcoxon signed rank test with continuity correction
data: new_data
V = 360, p-value = 0.2527
alternative hypothesis: true location is less than 74
可以看到,虽然两个检验都不能拒绝原假设,但是Wilcoxon符号秩检验的值要比符号检验的值小很多。所以,当数据来自对称分布时,Wilcoxon符号秩检验比符号检验效率要高。