你知道么?你的数据会说谎~_学术论文


事件背景:

一次标准考试过后,A班和B班进行成绩统计,结果如下表:


女生平均分

男生平均分

总体平均分

A班

80

70

79

B班

85

75

76

一个老师说:“我认为这次考试A班考的比B班好,因为按照总体平均成绩计算,A班比B班高3分。”

另一名老师却说:“我并不认同。如果我们把男女生分开计算,A班女生的平均成绩比B班低5分,A班男生的平均成绩也比B班低5分,显然B班考得更好。”

你认为上述两位老师的说法哪个是正确的呢?

其实两个人的说法都没错!意不意外?

欢迎来到“辛普森悖论”的世界。在这个世界里,A班同学考试平均成绩不仅高于B班,同样的数据还可以得出完全相反的结论,即A班学生无论是女生还是男生平均成绩都比B班要差。

你知道么?你的数据会说谎~_数据_02


问题:

其实,类似的悖论在现实世界里层出不穷,业界将之称之为“辛普森悖论”,因1951年辛普森发表的一篇学术论文而得名。简单来说就是,当我们把数据按照整体对待时得出的结论与把数据拆开来看的结论正好相反。即在总体分析中占优势的一方,在分组计算时却占了劣势。这种现象是怎么发生的呢?

分析:

首先先来看一组公式:

你知道么?你的数据会说谎~_数据分析师_03

这组公式告诉我们:

当左侧公式成立时,我们不能得出右侧的结论。反过来也一样。

在这个案例中,即便A班女生和男生平均分分别低于B班,也得不出A班总体平均分低于B班总体平均分的结论,反之亦然。

该案例的具体解释可以看下表:


女生人数

女生平均分

男生人数

男生平均分

总平均分

A班

50

80

5

70

79

B班

5

85

50

75

76

由上表可以看出,之所以产生悖论是因为在进行性别分解时,A班的性别比例与B班的性别比例产生了严重的不平衡。在这里我们通常把性别这个细分因素称之为混杂因素,因为它的存在,导致了辛普森悖论的发生。

意识到了性别这个混杂因素,我们就该时刻注意,绝不能将具有混杂因素的数据加在一起计算,而是要分开计算,这时混杂因素对结果的干扰性就阻断了,也就不太可能出现前后不一致的悖论了。

建议:

为了避免辛普森悖论对我们的误导,我们需要注意以下几点:

第一:谨慎对待有限的尤其是总体的统计指标。报表里的总体指标未必能推导和还原事实真相。

第二:对数据进行各种形式的比较和细分分析。分析的越细,越有可能发现其中的混杂因素,从而触达问题的本质。

第三:在辛普森悖论里,人们始终可以找到对自己的有利的那个结果,所以我们要格外注意个别人的不良用心,不能被数据的表面所蒙蔽。

你知道么?你的数据会说谎~_数据_04


最后:

其实,数据本质上并不会说谎,真正会说谎的是对数据轻易下结论的人,数据分析师需要做到的是面对数据不能形成自动化思考,要学会从多个方面、多个角度看待问题。