与t检验和非参数检验的应用情形不同,卡方检验一般用于衡量给定的样本组是否符合某个分布律;有时这个被假设的分布律不会给定参数,而有时则会。除此之外,本文中要介绍的另外一种卡方检验的应用在于检验两个变量是否相互独立(例如检验发色与虹膜的颜色是否存在某种统计意义上的联系,或是相互独立)。
本文仍然是一篇考试复习笔记。。
零假设与备择假设选定规则:
一般规则:
中为对于分布律假设肯定句式,如‘~ distribution is a good fit (xx分布是一个好的估计,必要时应当阐述参数如方差)’;或是对于两个变量相关性的否定陈述例如‘变量a与变量b没有关联’‘变量a与变量b相互独立’。
中为对于分布律假设否定句式,如‘~ distribution is not a good fit (xx分布不是一个好的估计,必要时应当阐述参数如方差)’;或是对于两个变量相关性的肯定陈述例如‘变量a与变量b是有关联的’‘变量a与变量b不是相互独立的’。
注意:如果题干中给出了被假设内容的参数(例如:检验样本是否服从一个【方差为0.4】的正态分布),则应当将参数写在假设内容中!
期望值
首先,在卡方检验中,任何情况下期望值的总和都应当等于观察值的总和,即
,如果发现并非如此则应该检查答题内容!
另外,对于任何形式的卡方检验,都应当保障每一个数据的期望值≥5,即
,如果计算出的某一个期望值小于5,则应当将
这一列与相邻 的一列合并(两列数据的观察值相加,期望值相加),直到得到的每一列期望值都≥5,此时后续的解题过程中总列数n应按照合并后的n计算。一定不要忘记合并!
检验统计量
在卡方检验中,检验统计量的统一计算标准是
临界值的计算
卡方分布是依赖自由度的分布,自由度记作
,
(即假设中提到的参数的个数),写作
,最终数值应当查阅卡方表获取。
注意:方便起见次处及以下皆假设题干中给出的显著性水平为5%。
结论
与t检验中类似,卡方检验中如果检验统计量test statistic<临界值critical value则接受原假设;如果检验统计量test statistic≥临界值critical value则拒绝原假设,这与各类非参数检验中是恰恰相反的。
10.1中的情形:检验离散均匀分布
--即当假设内容为是否符合一个离散均匀分布discrete uniform distribution时所作的检验,常见于检验一个色子是否是公平的或是某几个事件是否是等可能的。
离散均匀分布形如:
,这种分布不需要任何参数,因此自由度
.
步骤:
1.解释为何题目中的实际情况可以通过验证样本是否符合离散均匀分布得证.
2.提出假设
3.计算期望值表并计算检验统计量
4.计算临界值
5.对比临界值与检验统计量,给出结论.
10.2中的情形:对于两种离散分布的检验(二项分布与泊松分布)
- 二项分布
步骤:
1.求参数
(其中n为数据的个数,即表内有几栏),
,这其中N表示的是总频数,
是与
对应的成功次数.如果题干中已经给出了参数p则跳过这一步。
2.提出假设.
3.对每一个
计算其对应的
,即所对应的期望值,公式使用
.
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数p,
,如果没有进行估计则不需要减去最后一个1.
6.对比检验统计量与临界值的大小,得出结论.
- 泊松分布
步骤:
1.求参数
,λ是泊松分布中的数学期望值,这里N表示的是总频数,
是与
对应的成功次数,如果题干中已经给出了参数λ则跳过这一步。
2.提出假设.
3.对每一个
计算其对应的
,即所对应的期望值,公式使用
.
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数λ,
,如果没有进行估计则不需要减去最后一个1.
6.对比检验统计量与临界值的大小,得出结论.
10.3中的情形:对于两种连续分布的检验(正态分布与连续型均匀分布)
- 正态分布
步骤
1.求参数
(其中n为表格中区间的个数),每一个x取其相应的区间的中间值,作为一个估计,以及
如果已经给出μ和σ的值则不需要计算这一步。
2.提出假设,注意如果题干中有提及指定的参数,则应该标明,例如‘方差为0.4,均值为16的正态分布’。
3.对每一个
计算其对应的
,即所对应的期望值,使用正态分布的公式求出每个区间所对应的概率再乘以总频数。
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数p,
6.对比检验统计量与临界值的大小,得出结论.
警告:
应当在做题过程中注意以下两种情况:
1.当对离散型数据使用正态分布时应当对区间进行连续性校正(
)
2.如果使用正态分布近似后出现期望值中的某些数据落在原区间之外的情况(即期望值总和<观察值总和)则应当将上下界更改为
.
例见课本exercise 10 C, Q7.
- 连续型均分布
即形如以下的分布,记作
步骤:
1.解释为何题目中的实际情况可以通过验证样本是否符合连续型均匀分布得证.
2.提出假设
3.计算期望值表并计算检验统计量.
4.计算临界值,由于无估计参数,故
5.对比临界值与检验统计量,给出结论.
注意:对于各类型的连续分布函数,则使用对PDF求常积分的方式计算对应区间的期望频数,尤其注意连续型均匀分布中各区间不相等的情况,此时不要直接用总频数除以区间个数。
10.4中的情形:Contingency Table(针对列联表的检验)
--与以上对于分布律的检验不同,此处检验的是两个变量是否具有统计相关性(表格行和列上的两个变量).首先应该知道我们把横行/行数记作i,纵行/列数记作j,
则分别代表表格上第i行第j列中的数据所对应的观察值和期望值。
这种检验的期望值的计算建立在零假设中所阐述的‘假设行变量与列变量无关联’的前提上。期望值计算公式是
,即第i行观察值总和乘以第j列观察值总和的结果除以整个表上的观察值总和。
检验统计量的计算标准仍然不变。
而自由度的计算标准则更改为
,其中r代表表格总行数,c代表表格总列数。
计算过程中如果出现某处
<5的情况,则应该对与其相关的行/列进行相邻合并。