卡方检验,或称x2检验,是一种常用的特征选择方法,尤其是在生物和金融领域。χ2 用来描述两个事件的独立性或者说描述实际观察值与期望值的偏离程度。χ2值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。
无关性假设
吴亦凡
)是否与该条新闻的类别归属(比如娱乐
)是否有关,我们只需要简单统计就可以获得这样的一个四格表:
组别 | 娱乐 | 娱乐 | 合计 | |
| 19 | 24 | 43 | |
| 34 | 10 | 44 | |
合计 | 53 | 34 | 87 | |
标题是否包含吴亦凡
确实对新闻是否属于娱乐
有统计上的差别,包含吴亦凡
的新闻属于娱乐
的比例更高,但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含吴亦凡
与新闻是否属于娱乐
是独立无关的,随机抽取一条新闻标题,属于娱乐
类别的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
理论值四格表
第二步,根据无关性假设生成新的理论值四格表:
组别 | 娱乐 | 娱乐 | 合计 |
| 43 * 0.609 = 26.2 | 43 * 0.391 = 16.8 | 43 |
| 44 * 0.609 = 26.8 | 44 * 0.391 = 17.2 | 44 |
显然,如果两个变量是独立无关的,那么四格表中的理论值与实际值的差异会非常小。
x2值的计算
x2的计算公式为:
其中A为实际值,也就是第一个四格表里的4个数据,T为理论值,也就是理论值四格表里的4个数据。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
- 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
- 差异程度与理论值的相对大小
对上述场景可计算x2值为10.01。
卡方分布的临界值
既然已经得到了x2值,我们又怎么知道x2值是否合理?也就是说,怎么知道无关性假设是否可靠?答案是,通过查询卡方分布的临界值表。
自由度
的概念,自由度等于V = (行数 - 1) * (列数 - 1)
,对四格表,自由度V = 1
。V = 1
,卡方分布的临界概率是:
10.01 > 7.88
,也就是标题是否包含吴亦凡
与新闻是否属于娱乐
无关的可能性小于0.5%,反过来,就是两者相关的概率大于99.5%。
【例2】
gene1,…,gene5
gene1 | gene2 | gene3 | gene4 | gene5 |
患病 | 0.73 | 0.24 | 0.21 | 0.54 |
不患病 | 0.71 | 0.26 | 0.87 | 0.55 |
“患病与gene_x无关”。
χ2
χ2
上述的例子比较简单,也存在一些不合常理的地方,仅仅用于帮助大家理解。
———————— 计算 χ2
χ2
先直接上公式:
X2(t,c)=∑et∈0,1∑ec∈0,1(Netec−Eetec)2Eetec
t:term,即某个特征有或无,c:class ,即类别1或0(这里只支持2分类)。N 是观察值, E 是期望值。则 E11 表示出现特征 t 且 类别 c=1。
gene3 为例,来计算 χ2
样本编号 | gene3是否出现 | 是否患病 |
1 | 1 | 0 |
2 | 1 | 0 |
3 | 1 | 1 |
4 | 1 | 0 |
5 | 1 | 0 |
6 | 0 | 1 |
7 | 1 | 0 |
8 | 0 | 1 |
9 | 1 | 0 |
10 | 0 | 1 |
据此我们可以很容易的计算所有的观测值以及期望值。
首先是观测值
N11=患病且出现gene3的人数=1
N01=患病且不出现gene3的人数=3
N10=不患病出现gene3的人数=6
N00=不患病不出现gene3的人数=0
然后是期望值:(因为我们的假设是t和c独立,因此可以直接按照下式计算)
E11=10×P(t=1)×P(c=1)=2.8
N01=10×P(t=0)×P(c=1)=1.2
N10=10×P(t=1)×P(c=0)=4.2
N00=10×P(t=0)×P(c=0)=1.8
代入公式有:
X2(t,c)=(1−2.8)22.8+(3−1.2)21.2+(6−4.2)24.2+(0−1.8)21.8=6.4286
χ2 值,但是这并不够直接明了的说明问题。因此,我们还需要将 χ2
p-value | χ2 |
0.1 | 2.71 |
0.05 | 3.84 |
0.01 | 6.63 |
0.005 | 7.88 |
0.001 | 10.83 |
我们的χ2
应用场景
卡方检验的一个典型应用场景是衡量特定条件下的分布是否与理论分布一致,比如:特定用户某项指标的分布与大盘的分布是否差异很大,这时通过临界概率可以合理又科学的筛选异常用户。
另外,x2值描述了自变量与因变量之间的相关程度:x2值越大,相关程度也越大,所以很自然的可以利用x2值来做降维,保留相关程度大的变量。再回到刚才新闻分类的场景,如果我们希望获取和娱乐类别相关性最强的100个词,以后就按照标题是否包含这100个词来确定新闻是否归属于娱乐类,怎么做?很简单,对娱乐类新闻标题所包含的每个词按上述步骤计算x2值,然后按x2值排序,取x2值最大的100个词。