箱型图主要用来观察一个或多个类别下,数值型变量的分位数及离群值的特征和分布,以及在一定程度上观察到偏度和峰度的状态。网上有一些自己计算分位数来绘制箱型图的方法,但一方面是没有直接使用excel自带的箱型图好看和功能全面,二方面是绘制起来更复杂、效率更低。所以还是推荐优先使用自带图表框中的箱形图,下面就以Excel 2021为例进行介绍。
第一步:选择需要用纵坐标Y轴来表达的数值型维度的数据
- 先选定用Y轴来表达的数值型数据
- 点击插入选项卡图表栏中更多按钮
- 点击所有图表中的箱形图
就会得到一个基础的、不带类别信息的箱形图:
带此时不宜同时选择需要展示的分类信息,因为自带模板无法自动识别,就会出现下图的状况:
第二步:选择需要区分的与数值型变量对应的分类型变量
- 在数据框中点击鼠标右键,点击选择数据,会出现下图所示:
- 点击编辑,即是选择要在水平X轴上展示的分类型变量
- 选择与第一步中数值型变量所对应的分类型变量,即在行(元素)方向上,数值型变量的元素要与分类型变量的元素一一对应:
- 即可得到带分类型变量的箱形图:
需要说明的是,因为在上图中选择分类型变量的时候包含了空值,excel就会把空值也默认当做一种没有名称的类别。
第三步:根据需要调整细节
可以根据需要点击图表框左键或者数据框右键,调整细节以达到自己想要的程度
- 图表框左键+号的一些选项示例
- 数据框右键的一些选项示例
说明:
- 下图中从上到下是以从大到小的顺序对数值型变量进行排序,与上面几张图中数值型变量的排序方式一致;如果数值型变量的排序方式相反,则下列公式应进行对应变化。
上界 = P25 + 1.5×IQR,下界 = P75 - 1.5×IQR,IQR = P25 - P75,超出上下界的值则认为是离群点,与 均值 ± n×标准差 来判断离群点的方式相似。 - × 号表示均值:在上面的例子中,当均值在中位数上方时,表示均值 > P50,则该数值型变量在该分类下的分布是右偏(Skewness > 0)的;当均值在中位数下方时,表示均值 < P50,则该数值型变量在该分类下的分布是左偏(Skewness < 0)的。
- 如果IQR越小,则数据分布越集中,峰度(Kurtosis)越大;反之峰度越小。