平均数是一个很简便的统计信息的方法,而且平均数会告诉我们一些有用的信息,现在的数据分析估计没用不用过平均数的。但是平均数会对信息的过度简化,通常也有可能带来误导性的信息。平均数最大的问题就是它用一个单独的数字取代了大量数据的分布规律。而当我们对两组平均数做比较的时候,我们就有可能犯一个更大的错误。我们可能只看到了两组平均数之间的差异,而错过了两组数据之间重合的部分,以及在平均数宏观下数据的变异情况。从而导致从宏观的对比并未发现什么问题,但实际的数据已经在发现一些较大的变化;我们对两组平均数做比较的时候,我们就有可能犯一个更大的错误。我们可能只看到了两组平均数之间的鸿沟,而错过了两组数据之间重合的部分。所谓的鸿沟在事实上并不存在。例如:2016年不同数学成绩的人数分布

你在用平均数做分析吗?_平均数

来源:College Board2016年不同收入的人数分布

你在用平均数做分析吗?_平均数_02

来源:Gapminder[8] based on ENIGH, US-CPS & PovcalNet通过上面的两张图,来源于:《事实》第一张图展示了自从1965年以来,所有年份男性和女性的数学考试的平均成绩。第二张图展示了美国和墨西哥人民每年的平均收入水平。你可以清晰地看到两张图表展示的两组平均数之间的鸿沟。男性相对于女性,美国相对于墨西哥,这两张图似乎能够清晰地表示男性的数学成绩普遍要好于女性,而美国人的收入是高于墨西哥人的。从某种意义上来说,这个结论是有道理的。但是正确到什么程度呢?是所有男性的数学成绩都比女性要好吗?是所有的美国人都比墨西哥人更富有吗?那么让我们来看一下数据背后的真相吧,同样的数据,它的分布是什么样的?我们来看一下特定一年的数学成绩的分布和收入水平的分布。用这样的方法我们就可以理解,平均数背后代表的数据的分布究竟是什么样子。

 

2016年不同数学成绩的人数分布

你在用平均数做分析吗?_平均数_03来源:College Board2016年不同收入的人数分布你在用平均数做分析吗?_平均数_04来源:Gapminder[8] based on ENIGH, US-CPS & PovcalNet从图中可以看到,男性和女性的数学成绩的分布几乎是完全重合的。大多数的女性和男性的数学成绩是差不多的。我们再看看美国和墨西哥的个人收入分布情况。我们可以看到美国和墨西哥的个人收入水平是有部分重叠的。所以,当我们用这种方式来分析数据的时候,我们就会发现这两组人:男性和女性,墨西哥人和美国人,并不是完全一分为二的。它们的分布是有重叠的,而中间是不存在鸿沟的。当然一分为二的表达方式也可以反映一些现实。而且你确实可以发现他们之间收入的鸿沟。在这种情况下,一分为二的理论是完全合理的。在更多的时候,一分为二的思维方式只能带给我们误导性的和过度情绪化的结论。在更多的情况下,两个组之间基本上没有清晰的划分界限,虽然有时候比较平均数的话,两者之间似乎有一道鸿沟。而当我们分析平均数背后的真实数据分布的时候,我们总能够得到一个更清晰、更准确的画面。那时我们就会发现,大多数我们看起来非常不同的数据,实际上是重叠在一起的。在我们对数据进行分析的时候,平均值的方式有时候会存在误导,我们举个示例方便大家了解,比如拿零售行业常用的一个指标连带率平均值来分析;对连续2个月每天的平均值统计后发现值是相等的,侧面说明这个月的连带率环比上个月正常,整体产品结构等没有异常,但如果你对每天的连带率值的分布情况做对比,如下图:

你在用平均数做分析吗?_平均数_05

通过对比3月和4月每天的连带率值的分布情况,可以发现,从统计分布的角度看,3月是比较正常的,数据比较集中在平均值周围,但是4月是分布在两端,是因为个别天的连带率异常值拉高了平均数;平均数掩盖了数据背后的部分真相,类似以上这种,其实指标的已经出现了异常;那么有什么应对的方法呢,主要就是来自统计学,数据的分布特征与适用的描述统计量,如下图:

你在用平均数做分析吗?_平均数_06