python 证明组间方差小于组内方差

转载

编程小达人之心 2024-09-14 16:49:09

文章标签 python 证明组间方差小于组内方差统计学方差方差分析 SPSS 文章分类 Python 后端开发

注：参考书籍《SPSS其实很简单》

ANOVA：analysis of variance, 方差分析。
在一维组间方差分析中，自变量是组间因素，每个参与者都仅得到因素的一个水平（也就是说，每个人都在一个单独的组内）

问题背景：
调查三种学习策略A、B、C对单词记忆方面有没有显著差别。
现将30人分为3策略组，每组10人。
在学习各自的策略之后，给每个学生5分钟看15个单词，之后尽可能多地默写出。
简言之，因素：学习策略，水平：A,B,C。

一维组间方差分析的目标：
检验：感兴趣的因变量在两个或是更多独立的组别的均值是否有显著差异。
不同组别的均值之间的差异是否大到足以具有统计显著性。
一维组间方差分析的数据要求：
自变量：组间因素有两个或者是更多独立的组别/类别；
因变量：连续；
在这里的问题背景下，自变量为学习策略的类型（A、B、C），因变量为默写正确的单词个数。
一维组间方差分析的假定：

观测是独立的；
每组因变量的总体服从正态分布；
每组的总体方差相等
违反方差齐性假定将影响到ANOVA检验的准确性，特别是各组的样本量不相等时。Levene检验出方差不相等，可以进行合适的事后检验，例如Dunnett’s T3，选择Brown - Forsythe 检验或Welch检验来满足该假定。
一维组间方差分析的原假设：
原假设：所有水平没差异。这里是对三个组的（回忆起的单词数量的）总体均值相等的原假设进行检验。
值得注意的是：
备择假设：其中至少一个均值与其他均值不同。
也就是说，为了说明原假设错误，不需要要求所有组之间彼此互不相同，能够满足某些组间会存在不同即可，即原假设在某些方面的错误。
常用的陈述是均值在某些方面有不同。

数据处理：

学习策略	符号
A	1
B	2
C	3

输入数据如下：

python 证明组间方差小于组内方差_统计学

第一行数据表示：参与者1号选择学习策略A，在最终的结果测试中，正确默写出了8个单词。

操作：

【分析】 - 【比较均值】 - 【单因素ANOVA检验】；

接着，分别把变量strategy 、变量wordrecall拉入因子、因变量列表中。

设置【选项(option)】：选择【描述统计(Descriptives)】和【方差齐次性检验(test of homogeneous of variance)】；

设置【事后比较(Post Hoc Multiple Comparision)】：选择【图基（Turkey）】

结果分析：

5. 描述统计

显示了每一组的描述统计量，比如均值。

python 证明组间方差小于组内方差_方差_02

6. 方差齐次性检验

python 证明组间方差小于组内方差_方差_03

该表格用于检验三组的方差是否相等，是组间方差分析的一个假设。

在SPSS中使用Levene检验。

原假设是各个组的总体方差相等。

通过该表格中的p值来评定是否拒绝原假设：如果p<=0.05，拒绝原假设，说明各组的总体方差不完全相等；如果是p>0.05，不拒绝原假设，假定各组的总体方差相等。

python 证明组间方差小于组内方差_统计学_04

在这里，基于平均值，p-值为0.98>0.5，不拒绝原假设。

7. ANOVA

python 证明组间方差小于组内方差_方差分析_05

用于检验各个组的均值是否相等。

ANOVA进行F检验，即两方差的比率，而且每个方差在输出结果中表示为均方（MS）的形式：F = 组间均方/组内均方。

在上图中，F = 82.633/2.170 = 38.073

组间自由度 = 组数目 - 1；

组内自由度 = 样本容量数目 - 组数目；

这里的p-值小于0.05，拒绝均值相等的原假设（至少有一个均值和其他均值不同且差异较大）。

8. 事后检验

上述的ANOVA只能判定均值不完全相同，但是不能找出这些组如何不同，因此需要更深入地检验。

通常的方法是·检验配对比较·，即检验所有可能的成对的组。

常见的检验方法是Turkey’s post hoc 方法(其中post hoc表示“在此之后”)，而Turkey检验是在ANOVA检验显著的前提下进行的（也就是原假设被排除后）。

在这个例子中，Turkey检验进行三遍（独立）：A和B，A和C，C和B。

图基检验（也就是Turkey检验）提供两个不同的输出表格，有多重比较（Multiple Comparisions)和齐性子集（Homogeneous Subsets）。两个表格都可以解释配对比较的结果，不过，通常使用后者（齐性子集Homogeneous subsets)描述结果。

python 证明组间方差小于组内方差_统计学_06

解释表格多重比较Multiple comparisions ：第一大行在检验策略A与策略B、策略C，主要看显著性这栏0.138>0.05，所以不拒绝策略A和策略B组间没有显著性差异，而0.000<0.001<0.05 拒绝策略A和策略C组间有显著性差异。在该多重比较的表格中每一个配对比较出现了两次，产生冗余。

解释表格Homogeneous Subsets:给出记为”1“ ， ”2"的两个不同的列，共享同一列的组件没有显著差异。

在这里，策略A和策略B共享同一列（列2），他们之间没有显著差异，那么二者之间的任何差异将会被认为是抽样误差所导致的。而策略C与策略A、策略B都不共享同一列，所以策略C被认为是和策略A、策略B之间有显著差异。（就像我们看表1：描述统计量中的各组均值所显示的那样：策略C明显低于策略A和策略B）

python 证明组间方差小于组内方差_SPSS_07