丑图百讲 | 箱线图应该怎么用






丑图百讲 | 箱线图应该怎么用_数据

大家好,我是水妈。之前讲了针对离散型变量的两种重要图形:柱状图和饼图。今天我们讲一种针对于连续型变量的统计图:箱线图(boxplot)

首先看一个长相标志的箱线图。水妈模拟了一个样本数据,是学生期末考试得分,箱线图如图1所示。

丑图百讲 | 箱线图应该怎么用_中位数_02

图1 学生期末考试成绩箱线图



看图说话,注意以下几个点:


箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的​波动程度​。

在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成​“异常值”​就好。

以上是解读箱线图最基本的三要素。虽然箱线图也能看分布的形态,但人们更习惯从直方图去解读分布的形态,而非箱线图。在了解了箱线图之后,我们今天着重讲两个事情

第一件事情,不是所有的数据都适合画箱线图,不信,请看学生画的丑图。

丑图百讲 | 箱线图应该怎么用_中位数_03图2 丑图示例

这几组箱线图看着不舒服,主要原因是,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多刺眼的异常值。这种情况的出现,有两个常见的原因。第一是,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二是,样本数据特别少,数据一少,就有可能出现各种诡异的情况,导致统计图长得对不起观众。

如果你画出的箱线图是这样的,那么有两个解决办法。第一,如果数据取值为正数,那么可以尝试做对数变换。对数变换水妈必须墙裂推荐,称得上画图界的整容神器,专治各种不对称分布、非正态分布和异方差现象等。图3就是整容前后的一组箱线图。你说我不想做变换,那么可以采取第二种解决办法,那就是,不画箱线图。


图3 对数变换前后的箱线图

以上是第点要说明的,不是所有数据都适合画箱线图。第二点要说明的,更加重要的,那就是箱线图应该怎么用。答案是,配合着定性变量画分组箱线图,作比较!分组箱线图是水妈最喜欢的统计画图工具,没有之一。

如果只有一个定量变量,很少用一个箱线图去展示其分布,而是更多的选择直方图​。箱线图更有效的使用方法,是作比较。我们举两个栗子。

第一个例子,我上课经常讲。假设我现在要比较男女教师的教学评估得分,用什么工具最好。答案是箱线图。没有比较就没有伤害,大家看图4能够明显感觉到箱线图是更有效的工具,能够从平均水平(中位数),波动程度(箱子宽度)以及异常值对男女教师的教学评估得分进行比较,而直方图却做不到。


图4 进行比较时,箱线图是更有效的工具

第二个例子,来自R语言里面的boxplot的example,水妈觉得很好看,拿来跟大家分享。这个箱线图略复杂,共涉及3个变量。定量变量是牙齿生长长度,体现在图形的纵坐标,也就是箱子展示的内容。第一个定性变量是维他命C的剂量,三个水平(0.5mg,1mg和2mg),体现在横坐标,所以一共有3组箱线图;第二个定性变量是食用的食物,是维C还是橙汁,分别用黄色和橙色展现,所以每组箱线图里又包含两个箱子。


图5 来自R语言的箱线图示例



从图5当中,可以得到这些结论:


随着使用剂量的增加,不管食用的是哪种食物,牙齿生长长度的平均水平(中位数)都在增加。

当使用剂量为0.5mg和1mg时,食用橙汁带来的牙齿生长的平均长度(中位数)要比食用维C高,波动程度也相应更大。

当使用剂量为2mg时,食用两种食物带来的牙齿生长平均水平(中位数)相当,食用维C的牙齿生长长度波动相对更大。

以上是今天跟大家分享的箱线图,总结一下

箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。

当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。

当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。

箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。




水妈简介



  • 毕业于北京大学光华管理学院商务统计系,女博士一枚
  • 师从王汉生教授,狗熊会熊孩子一只
  • 现任职于中央财经大学统计与数学学院,年轻讲师一个
  • 在理论研究方面,关注高维数据和社交网络数据,在JASA和Annals上均有发表
  • 在业界实践方面,关注车联网行业的数据分析