R语言与非参数检验之单样本位置检验

原创

GoatGui 2022-06-03 00:13:07 博主文章分类：统计学 ©著作权

©著作权归作者所有：来自51CTO博客作者GoatGui的原创作品，请联系作者获取转载授权，否则将追究法律责任

学习笔记

学习书目：《统计学：从数据到结论》–吴喜之

非参数检验

啥是非参数检验

很多检验都假定了总体的背景分布，但也有些检验没有假定总体分布的具体形式，这些检验多根据数据观测值的相对大小建立检验统计量，然后找到在零假设下这些统计量的分布，并且看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。

非参数检验的优越性

在分布未知时，如果还假定总体有诸如正态分布那样的己知分布，在进行推断性统计时，就可能产生错误甚至灾难。非参数检验总是比传统检验安全，但在总体分布形式已知时，非参数检验就不如传统方法效率高，这是因为非参数的方法利用的信息要少一些，往往在传统方法可以拒绝零假设的情况下，非参数检验无法拒绝。但非参数统计在总体分布未知时，效率要比假定了错误总体分布时的传统方法要高，有时要高很多.

关于单样本位置检验

符号检验

符号检验，它是对位置参数中位数的检验，而且不需要任何关于总体的假定。当然，对于像正态分布或 $R语言与非参数检验之单样本位置检验_R语言$ 分布那样的对称分布，总体中位数就是总体均值.这时，对中位数的检验等价于对均值的检验.

检验一般以两种形式出现，一种是看中位数或 $R语言与非参数检验之单样本位置检验_中位数_02$ 分位数是否是某个事先认定的值(零假设)，一种是大于(或小于)某数的观测值是否为一个事先认定的比例(零假设).

符号秩检验的原理是这样的，有样本 $R语言与非参数检验之单样本位置检验_正态分布_03$ ，如果零假设为中位数 $R语言与非参数检验之单样本位置检验_数据_04$ ,则需要计算在n个差 $R语言与非参数检验之单样本位置检验_正态分布_05$ 中有多少正负符号，即可利用二项分布的概率来计算 $R语言与非参数检验之单样本位置检验_正态分布_06$ 值，进而判断是否拒绝原假设。

Wilcoxon符号秩检验

符号检验利用了观察值和零假设的中位数之差的符号来进行检验，但是它并没有利用这些差的绝对值大小所包含的信息，不同的符号仅仅代表了在中位数的哪一边，而差的绝对值的秩的大小代表了距离中心的远近。如果把这两者结合在一起，自然比仅仅利用正负号的数目要更有效。这也是马上要引入的Wilcoxon符号秩检验的宗旨，它把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。

与符号检验不同，Wilcoxon符号秩检验对数据总体分布有一点了解，它要求假定样本点来自连续对称总体分布，而符号检验不需要知道任何总体分布的性质。

Wilcoxon符号秩检验的原理是这样的，假定 $R语言与非参数检验之单样本位置检验_正态分布_03$ 为来自连续对称总体的一个样本,如果零假设为中位数 $R语言与非参数检验之单样本位置检验_数据_04$ , 则需要把 $R语言与非参数检验之单样本位置检验_正态分布_09$ 排序，得到 $R语言与非参数检验之单样本位置检验_正态分布_09$ 的秩，然后把 $R语言与非参数检验之单样本位置检验_数据_11$ 的符号加到相应的秩上面。于是，可以得到既有带正号的秩，又有带负号的秩.对带负号的秩的绝对值求和.即把满足 $R语言与非参数检验之单样本位置检验_非参数检验_12$ 的 $R语言与非参数检验之单样本位置检验_正态分布_09$ 的秩求和，并用 $R语言与非参数检验之单样本位置检验_中位数_14$ 表示；类似地，对带正号的秩的绝对值也求和，即把满足 $R语言与非参数检验之单样本位置检验_数据_15$ 的 $R语言与非参数检验之单样本位置检验_正态分布_09$ 的秩求和，并用 $R语言与非参数检验之单样本位置检验_正态分布_17$ 表示.如果 $R语言与非参数检验之单样本位置检验_数据_18$ 的确是中位数，那么 $R语言与非参数检验之单样本位置检验_中位数_14$ 和 $R语言与非参数检验之单样本位置检验_正态分布_17$ 应该大体上差不多。如果 $R语言与非参数检验之单样本位置检验_中位数_14$ 或 $R语言与非参数检验之单样本位置检验_正态分布_17$ 过大或过小，则怀疑中位数 $R语言与非参数检验之单样本位置检验_数据_04$ 的零假设. 令 $R语言与非参数检验之单样本位置检验_R语言_24$ ，则当 $R语言与非参数检验之单样本位置检验_中位数_25$ 太小时，应该拒绝零假设，这个 $R语言与非参数检验之单样本位置检验_中位数_25$ 就是Wilcoxon符号秩检验统计量。

R语言实现

我们现在有一个样本量为40的样本(假设总体分布是对称的)：

74.3  78.8  68.8  78.0  70.4  80.5  80.5  69.7  71.2  73.5
79.5  75.6  75.0  78.8  72.0  72.0  72.0  74.3  71.2  72.0
75.0  73.5  78.8  74.3  75.8  65.0  74.3  71.2  69.7  68.0
73.5  75.0  72.0  64.3  75.8  80.3  69.7  74.3  73.5  73.5

经过计算，样本中位数为73.5，现在我做出如下零假设：
$R语言与非参数检验之单样本位置检验_中位数_27$

现在我用上面学过的两种方法进行检验。

符号检验：

> pbinom(sum(new_data>74), 40, 0.5)
[1] 0.4373147

Wilcoxon符号秩检验：

> wilcox.test(new_data, m=74, alternative = "less")

  Wilcoxon signed rank test with continuity correction

data:  new_data
V = 360, p-value = 0.2527
alternative hypothesis: true location is less than 74

可以看到，虽然两个检验都不能拒绝原假设，但是Wilcoxon符号秩检验的 $R语言与非参数检验之单样本位置检验_正态分布_06$ 值要比符号检验的 $R语言与非参数检验之单样本位置检验_正态分布_06$ 值小很多。所以，当数据来自对称分布时，Wilcoxon符号秩检验比符号检验效率要高。