2016年不同数学成绩的人数分布
2016年不同收入的人数分布从图中可以看到,男性和女性的数学成绩的分布几乎是完全重合的。大多数的女性和男性的数学成绩是差不多的。我们再看看美国和墨西哥的个人收入分布情况。我们可以看到美国和墨西哥的个人收入水平是有部分重叠的。所以,当我们用这种方式来分析数据的时候,我们就会发现这两组人:男性和女性,墨西哥人和美国人,并不是完全一分为二的。它们的分布是有重叠的,而中间是不存在鸿沟的。当然一分为二的表达方式也可以反映一些现实。而且你确实可以发现他们之间收入的鸿沟。在这种情况下,一分为二的理论是完全合理的。在更多的时候,一分为二的思维方式只能带给我们误导性的和过度情绪化的结论。在更多的情况下,两个组之间基本上没有清晰的划分界限,虽然有时候比较平均数的话,两者之间似乎有一道鸿沟。而当我们分析平均数背后的真实数据分布的时候,我们总能够得到一个更清晰、更准确的画面。那时我们就会发现,大多数我们看起来非常不同的数据,实际上是重叠在一起的。在我们对数据进行分析的时候,平均值的方式有时候会存在误导,我们举个示例方便大家了解,比如拿零售行业常用的一个指标连带率平均值来分析;对连续2个月每天的平均值统计后发现值是相等的,侧面说明这个月的连带率环比上个月正常,整体产品结构等没有异常,但如果你对每天的连带率值的分布情况做对比,如下图: 通过对比3月和4月每天的连带率值的分布情况,可以发现,从统计分布的角度看,3月是比较正常的,数据比较集中在平均值周围,但是4月是分布在两端,是因为个别天的连带率异常值拉高了平均数;平均数掩盖了数据背后的部分真相,类似以上这种,其实指标的已经出现了异常;那么有什么应对的方法呢,主要就是来自统计学,数据的分布特征与适用的描述统计量,如下图: