文章目录

  • 统计学 非参数检验
  • 单样本的检验
  • 中位数的符号检验
  • Wilcoxon 符号秩检验
  • 两个及以上样本的检验
  • 两个配对样本的 Wilcoxon 符号秩检验
  • 两个独立样本的 Mann-Whitney 检验
  • k 个独立样本的 Kruskal-Wallis 检验
  • 秩相关及其检验
  • Spearman 秩相关及其检验
  • Kendall 秩相关及其检验
  • 总结


统计学 非参数检验

参数检验:之前的统计检验方法统称为参数检验,例如 t 检验、F 检验等,这些检验通常都是在假定总体服从正态分布或总体分布形式已知的条件下进行的,而且要求所分析的数据是数值型的。

非参数检验:非参数检验不依赖于总体的分布(也称为与总体分布无关的检验),是在不了解总体分布或者对总体分布的假定不满足条件下的统计检验方法。非参数检验对数据类型的要求也比参数检验宽松,当数据不适合用参数检验时,非参数检验往往会得出理想的结果。

单样本的检验

只有一个样本时,非参数检验可用于检验总体的某个参数与假定值是否相等。

中位数的符号检验

符号检验:利用正负号的数目对某种假设进行判定的非参数方法。主要用于成对比较,而且可用于类别数据,在市场研究中引用广泛(例如研究消费者对某种品牌产品的偏好是“喜欢”或“不喜欢”)。总体均值的 t 检验要求总体服从正态分布,但是若我们对总体分布并不了解,就无法进行 t 检验,这时可以采用中位数作为总体参数进行符号检验。

中位数的符号检验:检验总体中位数是否等于某个假定的值。设一个随机样本有 f检验 python F检验是非参数检验吗_数据挖掘 个数据 f检验 python F检验是非参数检验吗_f检验 python_02f检验 python F检验是非参数检验吗_f检验 python_03f检验 python F检验是非参数检验吗_f检验 python_04 f检验 python F检验是非参数检验吗_数据分析_05 ,总体中位数的实际值为 f检验 python F检验是非参数检验吗_f检验 python_06 ,假设的总体中位数的值为 f检验 python F检验是非参数检验吗_f检验 python_07 。当样本中的数据大于假设的中位数 f检验 python F检验是非参数检验吗_f检验 python_07 时,用 “f检验 python F检验是非参数检验吗_数据分析_09” 表示,小于 f检验 python F检验是非参数检验吗_f检验 python_07 时,用 “f检验 python F检验是非参数检验吗_数据分析_11” 表示,剔除恰好等于 f检验 python F检验是非参数检验吗_f检验 python_07

① 提出假设

  • 双侧检验(关心实际的 f检验 python F检验是非参数检验吗_数据分析_13 与假设的 f检验 python F检验是非参数检验吗_数据分析_14 是否有差别):f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_机器学习_18
  • 左侧检验:f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_数据挖掘_22
  • 右侧检验:f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_数据分析_26

② 计算检验统计量 f检验 python F检验是非参数检验吗_f检验 python_27f检验 python F检验是非参数检验吗_数据分析_28 ,分别代表 “f检验 python F检验是非参数检验吗_数据分析_09” 与 “f检验 python F检验是非参数检验吗_数据分析_11” 的个数;符号的总个数为 f检验 python F检验是非参数检验吗_数据分析_31

③ 根据伯努利分布 f检验 python F检验是非参数检验吗_f检验 python_32 ,计算统计量的 f检验 python F检验是非参数检验吗_数据分析_33 值并做出决策,若 f检验 python F检验是非参数检验吗_数据挖掘_34

Wilcoxon 符号秩检验

Wilcoxon 符号秩检验:与符号检验目的一致,进行了改进,弥补了符号检验只考虑样本差异方向上的信息、而未考虑差异的大小的不足。Wilcoxon 符号秩检验的效率高于普通的符号检验。该检验假设样本数据 f检验 python F检验是非参数检验吗_数据分析_35

① 提出假设:

  • 双侧检验(关心实际的 f检验 python F检验是非参数检验吗_数据分析_13 与假设的 f检验 python F检验是非参数检验吗_数据分析_14 是否有差别):f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_机器学习_18
  • 左侧检验:f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_数据挖掘_22
  • 右侧检验:f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_数据分析_16f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_数据分析_26

② 计算检验统计量:计算各样本观察值与假定的中位数的绝对差 f检验 python F检验是非参数检验吗_机器学习_50 ,然后将 f检验 python F检验是非参数检验吗_机器学习_51 排序并赋予他们秩,最小的 f检验 python F检验是非参数检验吗_概率论_52 秩为 1,最大的 f检验 python F检验是非参数检验吗_概率论_52 秩为 f检验 python F检验是非参数检验吗_数据挖掘 ,如果有相同的 f检验 python F检验是非参数检验吗_概率论_52 则取他们秩的平均值为新的秩。对于正的 f检验 python F检验是非参数检验吗_机器学习_51 和负的 f检验 python F检验是非参数检验吗_机器学习_51 的秩分别加总,得到检验统计量 f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59 ,并且有 f检验 python F检验是非参数检验吗_f检验 python_60

③ 接着选择 f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59 ,按照正态近似或者蒙特卡洛模拟的方法计算 f检验 python F检验是非参数检验吗_数据分析_33 值并做出决策,若 f检验 python F检验是非参数检验吗_数据挖掘_34 ,则拒绝原假设,表明实际中位数与假设的总体中位数之间有显著差异。当 f检验 python F检验是非参数检验吗_概率论_65 为真时, f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59

两个及以上样本的检验

抽取两个样本时有两种情况:

  • 两个样本是独立样本
  • 两个样本是配对样本

两个配对样本的 Wilcoxon 符号秩检验

配对样本均值之差的 t 检验基于配对总体差值服从正态分布这一假设,而 Wilcoxon 符号秩检验则没有这些限制,只要求两个样本的数据之差服从对称分布。

f检验 python F检验是非参数检验吗_f检验 python_68f检验 python F检验是非参数检验吗_机器学习_69 是两个连续的总体,且具有对称分布。从两个总体分别随机抽取 f检验 python F检验是非参数检验吗_数据挖掘 个观察值组成 f检验 python F检验是非参数检验吗_数据挖掘 个数据对:f检验 python F检验是非参数检验吗_数据分析_72f检验 python F检验是非参数检验吗_f检验 python_73f检验 python F检验是非参数检验吗_f检验 python_04f检验 python F检验是非参数检验吗_机器学习_75 ,每个数对的差记为 f检验 python F检验是非参数检验吗_数据分析_76 ,若 f检验 python F检验是非参数检验吗_f检验 python_68 ,f检验 python F检验是非参数检验吗_机器学习_69 是具有相同分布的总体,则有 f检验 python F检验是非参数检验吗_f检验 python_79 ,这意味着差值 f检验 python F检验是非参数检验吗_机器学习_51 的中位数等于 0。用 f检验 python F检验是非参数检验吗_数据挖掘_81 表示差值 f检验 python F检验是非参数检验吗_机器学习_51

① 提出假设:

  • f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_f检验 python_84
  • f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_f检验 python_86

② 计算检验统计量:计算各数据对的绝对差 f检验 python F检验是非参数检验吗_f检验 python_87 ,排序后赋予秩,如果有相同的 f检验 python F检验是非参数检验吗_概率论_52 则取他们秩的平均值为新的秩。对于正的 f检验 python F检验是非参数检验吗_机器学习_51 和负的 f检验 python F检验是非参数检验吗_机器学习_51 分别加总,得到 f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59 。定义统计量为 f检验 python F检验是非参数检验吗_数据分析_93

③ 在小样本情况下,统计量 f检验 python F检验是非参数检验吗_数据挖掘_94 服从 Wilcoxon 符号秩分布;在大样本情况下,统计量 f检验 python F检验是非参数检验吗_数据挖掘_94 近似服从正态分布,检验统计量为:
f检验 python F检验是非参数检验吗_数据分析_96
计算 f检验 python F检验是非参数检验吗_数据分析_33 值并做出决策,若 f检验 python F检验是非参数检验吗_数据挖掘_34 ,则拒绝原假设。当 f检验 python F检验是非参数检验吗_概率论_65 为真时, f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59

两个独立样本的 Mann-Whitney 检验

Mann-Whitney 检验:也称 Mann-Whitney U 检验、Wilcoxon 秩和检验,改检验适用于确定两个独立的总体间是否存在差异的一种非参数检验方法。Mann-Whitney 检验唯一的假设是两个独立随机样本的数据至少是顺序数据。该检验使用两个独立样本,其中每个样本都来自不同的总体。

Mann-Whitney 检验主要用于确定两个总体是否相同,设 f检验 python F检验是非参数检验吗_f检验 python_68f检验 python F检验是非参数检验吗_机器学习_69 是两个连续的总体,分布函数分别为 f检验 python F检验是非参数检验吗_数据挖掘_104f检验 python F检验是非参数检验吗_数据分析_105 。从两个总体分别抽取两个独立的随机样本:f检验 python F检验是非参数检验吗_f检验 python_106f检验 python F检验是非参数检验吗_数据挖掘_107

① 当想要检验两各总体是否相同时,可以提出假设

  • f检验 python F检验是非参数检验吗_f检验 python_15
  • f检验 python F检验是非参数检验吗_f检验 python_17

注意:当 Mann-Whitney 检验拒绝了 f检验 python F检验是非参数检验吗_概率论_65

若要检验两总体在中心位置上是否相同,可以提出如下假设:

  • f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_f检验 python_112
  • f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_f检验 python_114

如果 f检验 python F检验是非参数检验吗_概率论_65 为正,那么将 f检验 python F检验是非参数检验吗_数据挖掘_116f检验 python F检验是非参数检验吗_数据挖掘_117f检验 python F检验是非参数检验吗_数据挖掘f检验 python F检验是非参数检验吗_f检验 python_119 的数据混合在一起,并从小到大排泄,这 f检验 python F检验是非参数检验吗_概率论_120 个数据能够看作来自相同总体的一个随机样本。若大部分的 f检验 python F检验是非参数检验吗_数据挖掘_117 大于 f检验 python F检验是非参数检验吗_f检验 python_119 ,或者相反,则不能证明这 f检验 python F检验是非参数检验吗_机器学习_123 个数据来自同一个样本,因此应拒绝 f检验 python F检验是非参数检验吗_概率论_65

② 将两组数据混合在一次,按大小排列并赋予秩。分别求出平均秩 f检验 python F检验是非参数检验吗_数据分析_125f检验 python F检验是非参数检验吗_f检验 python_126 ,并比较二者的差距。若 f检验 python F检验是非参数检验吗_数据分析_125f检验 python F检验是非参数检验吗_f检验 python_126 差距较大,即大部分的 f检验 python F检验是非参数检验吗_数据挖掘_117 大于 f检验 python F检验是非参数检验吗_f检验 python_119

③ 计算统计量 f检验 python F检验是非参数检验吗_f检验 python_131f检验 python F检验是非参数检验吗_f检验 python_132f检验 python F检验是非参数检验吗_概率论_133 ,比较 f检验 python F检验是非参数检验吗_概率论_134f检验 python F检验是非参数检验吗_概率论_135 的大小。若 f检验 python F检验是非参数检验吗_概率论_134f检验 python F检验是非参数检验吗_概率论_135

④ 在小样本情况下,f检验 python F检验是非参数检验吗_概率论_138 服从 Mann-Whitney 分布。在大样本情况下,f检验 python F检验是非参数检验吗_概率论_138 近似服从正态分布,检验统计量为:
f检验 python F检验是非参数检验吗_数据分析_140
计算 f检验 python F检验是非参数检验吗_数据分析_33 值并做出决策,若 f检验 python F检验是非参数检验吗_数据挖掘_34 ,则拒绝原假设。当 f检验 python F检验是非参数检验吗_概率论_65 为真时, f检验 python F检验是非参数检验吗_f检验 python_58f检验 python F检验是非参数检验吗_机器学习_59

k 个独立样本的 Kruskal-Wallis 检验

Kruskal-Wallis 检验:用于检验多个总体是否相同的一种非参数检验方法。方差分析可以用于检验多个独立总体均值是否相同,但是需要假设个总体服从正态分布且方差相等。而 Kruskal-Wallis 检验可用于有序类别数据,也可用于数值数据。

设有 f检验 python F检验是非参数检验吗_概率论_146

  • f检验 python F检验是非参数检验吗_f检验 python_15
  • f检验 python F检验是非参数检验吗_f检验 python_17

如果在研究总体是否相同时,侧重于考察位置参数(如中位数),上述假设等价于 f检验 python F检验是非参数检验吗_概率论_146 个总体的中位数都相等。设 f检验 python F检验是非参数检验吗_概率论_146 个总体的中位数分别为 f检验 python F检验是非参数检验吗_f检验 python_151f检验 python F检验是非参数检验吗_机器学习_152f检验 python F检验是非参数检验吗_f检验 python_04 f检验 python F检验是非参数检验吗_数据挖掘_154

  • f检验 python F检验是非参数检验吗_f检验 python_15f检验 python F检验是非参数检验吗_概率论_156
  • f检验 python F检验是非参数检验吗_f检验 python_17f检验 python F检验是非参数检验吗_f检验 python_158f检验 python F检验是非参数检验吗_f检验 python_159f检验 python F检验是非参数检验吗_数据分析_160 f检验 python F检验是非参数检验吗_数据挖掘_161

从每个总体中抽出一个样本,每个样本的样本量分别为 f检验 python F检验是非参数检验吗_数据挖掘_162f检验 python F检验是非参数检验吗_概率论_163f检验 python F检验是非参数检验吗_f检验 python_04 f检验 python F检验是非参数检验吗_数据挖掘_165 ,总数为 f检验 python F检验是非参数检验吗_机器学习_166 ,这 f检验 python F检验是非参数检验吗_机器学习_123 个数据的平均的秩为:
f检验 python F检验是非参数检验吗_数据挖掘_168
对于第 f检验 python F检验是非参数检验吗_机器学习_169 个样本,设实际的秩的总和为 f检验 python F检验是非参数检验吗_概率论_170 ,其期望值应为 f检验 python F检验是非参数检验吗_f检验 python_171 ,那么第 f检验 python F检验是非参数检验吗_机器学习_169 个样本实际秩和与期望秩和的差值为 f检验 python F检验是非参数检验吗_数据挖掘_173 。对于所有观察值混合成的一个随机样本来说,秩从次序应该在所有样本之间均匀分布,也就是 f检验 python F检验是非参数检验吗_机器学习_51 应该很小,否则应怀疑 f检验 python F检验是非参数检验吗_概率论_65

具体步骤为:

① 所有样本的观察值混合在一起,排序并赋予秩

② 计算检验统计量:当任意样本的样本量都大于 5 时,可近似认为 f检验 python F检验是非参数检验吗_f检验 python_176
f检验 python F检验是非参数检验吗_数据分析_177
③ 计算 f检验 python F检验是非参数检验吗_数据分析_33 值并做出决策,若 f检验 python F检验是非参数检验吗_数据挖掘_34 ,则拒绝原假设,表明 f检验 python F检验是非参数检验吗_概率论_146

秩相关及其检验

介绍变量之间的关系(一元线性回归的开头部分)时已经学了如何计算两个数值变量之间的相关系数以及检验方法。而对于有序类别变量之间的相关程度的测量则要用到非参数方法,即秩相关系数。

Spearman 秩相关及其检验

Spearman 秩相关系数:也称等级相关系数,记为 f检验 python F检验是非参数检验吗_f检验 python_181

设所观察的一组数据样本对为 f检验 python F检验是非参数检验吗_数据分析_72f检验 python F检验是非参数检验吗_f检验 python_73f检验 python F检验是非参数检验吗_f检验 python_04f检验 python F检验是非参数检验吗_机器学习_75 ,将 f检验 python F检验是非参数检验吗_数据挖掘_186 排序后的秩记为 f检验 python F检验是非参数检验吗_概率论_170 ,将 f检验 python F检验是非参数检验吗_f检验 python_188 排序后的秩记为 f检验 python F检验是非参数检验吗_数据挖掘_189 ,然后将每一对观察秩的秩进行比较,即计算两个秩之间的差值 f检验 python F检验是非参数检验吗_数据挖掘_190 ,然后计算 Spearman 秩相关系数 f检验 python F检验是非参数检验吗_f检验 python_181
f检验 python F检验是非参数检验吗_数据分析_192
f检验 python F检验是非参数检验吗_f检验 python_181 的取值范围也是 f检验 python F检验是非参数检验吗_概率论_194 ,与相关系数 f检验 python F检验是非参数检验吗_数据分析_195

Spearman 相关系数还可以将数值数据转化为有序类别变量来计算。

Kendall 秩相关及其检验

Kendall 秩相关系数:与 Spearman 秩相关系数类似,也是对两个顺序变量之间相关程度的一种度量。

设所观察的一组数据样本对为 f检验 python F检验是非参数检验吗_数据分析_72f检验 python F检验是非参数检验吗_f检验 python_73f检验 python F检验是非参数检验吗_f检验 python_04f检验 python F检验是非参数检验吗_机器学习_75 ,将 f检验 python F检验是非参数检验吗_数据挖掘_186 排序后,f检验 python F检验是非参数检验吗_f检验 python_188 对应的顺序的逆序数记作 f检验 python F检验是非参数检验吗_f检验 python_202 ,正序数记作 f检验 python F检验是非参数检验吗_概率论_138 ,显然 f检验 python F检验是非参数检验吗_数据分析_204 ;正序对与逆序对分别占的比例为:
f检验 python F检验是非参数检验吗_f检验 python_205
Kendall 相关系数 f检验 python F检验是非参数检验吗_概率论_206 为:
f检验 python F检验是非参数检验吗_数据挖掘_207
f检验 python F检验是非参数检验吗_数据挖掘_208 ,表明两组秩之间完全正相关;若 f检验 python F检验是非参数检验吗_机器学习_209

总结

当总体分布能满足参数检验所需的假定时,参数检验的效率要比非参数检验高;而当假定得不到满足时,非参数检验则更为有效。

对比参数检验与非参数检验:

非参数检验

用途

参数检验

符号检验

检验一个总体位置参数(如中位数)是否等于某个假定的值

一个总体均值的 z 检验或 t 检验

Wilcoxon 符号秩检验

检验一个总体位置参数(如中位数)是否等于某个假定的值

一个总体均值的 z 检验或 t 检验

两个配对样本的 Wilcoxon 符号秩检验

检验配对数据的总体位置参数是否相同

两个总体均值之差的 z 检验或 t 检验(配对样本)

两个独立样本的 Mann-Whitney 检验

检验两个总体位置参数是否相同

两个总体均值之差的 z 检验或 t 检验(独立样本)

k 个独立样本的 Kruskal-Wallis 检验

检验多个总体是否相同

单因素方差分析

秩相关及其检验

检验两个变量的相关性

线性相关系数及其检验