为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读。旨在相关爱好者交流探讨,也可供报考六西格玛黄带、绿带或黑带的朋友参考。因个人水平有限,难免存在疏忽和错误,还请各位批评指正。
原创【六西格玛工具解读】01——直方图(histogram)
本节简单介绍一下箱线图。
1、 箱线图的定义
箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性,分布的离散程度等信息;如果将多组数据的箱线图画在同一坐标上,则可以清晰地显示出各组数据的分布差异,为发现问题、改进问题提供支持。
2、 箱线图各参数值概念的理解
下面分两种情况计算箱线图的各参数值。
情形一:数列值位数为奇数位。
有如下数列:6、18、12、8、11、15、9、2、1
按照从小到大顺序排列为:1、2、6、8、9、11、12、15、18
通过排列,可以很容易得出此数列各参数的计算结果:
① 最大值:18;
② 最小值:1
③ 中位数:此数列数值个数n=9,中位数即为中间位置的数值9.
④ 第一四分位数:Q1的位置=(n+1)/4=2.5;则Q1=2+(6-2)*0.5=4
⑤ 第三四分位数:Q3的位置=3*(n+1)/4=7.5;则Q3=12+(15-12)*0.5=13.5
⑥ 四分位间距为:IQR=Q3-Q1=9.5
⑦ 上限=min{(Q3+1.5IQR),最大值)}=min{27.75 , 18}=18
⑧ 下限=max{(Q1-1.5IQR),最小值)}=max{-10.25 , 1}=1
情形二:数列值位数为偶数位。
如下数列:33、26、18、21、16、5、2、15、
按照从小到大顺序排列为:2、5、15、16、18、21、26、33
通过排列,可以很容易得出此数列各参数的计算结果:
①最大值:33;
②最小值: 2
③中位数:此数列数值个数n=8,中位数即为中间两位数的平均值(16+18)/2=17
④第一四分位数:Q1的位置=(n+1)/4=2.25;则Q1=5+(15-5)*0.25=7.5
⑤第三四分位数:Q3的位置=3*(n+1)/4=6.75;则Q3=21+(26-21)*0.75=24.75
⑥四分位间距为:IQR=Q3-Q1=17.25
⑦上限=min{(Q3+1.5IQR),最大值)}=min{50.625 , 33}=33
⑧下限=max{(Q1-1.5IQR),最小值)}=max{-18.375 , 2}=2
重要的事情强调三遍,重点看这里,重点看这里,重点看这里~~~
★从上面第⑦和第⑧项的公式可以看出,箱线图上限一定在上四分位线上方1.5倍四分位间距以内,超出的则为异常点;同理,下限一定在下四分位下方的1.5倍四分位间距以内,超出则为异常点。
★很多文章中把上限与最大值混淆,也有的上下限直接用上下四分位与1.5倍四分位间距的距离直接定义。这些都可以通过作图软件来澄清。
3、 箱线图的作用
①直观明了地识别数据批中的异常值
箱线图判断异常值的标准以四分位数和四分位距为基础,所以异常值不会影响箱线图的数据形状,箱线图能够直观明了识别出别异常值的结果。
②利用箱线图判断数据批的偏态和尾重
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
③利用箱线图比较几批数据的形状
同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状可以直接明了的在图形上看出。
4、 箱线图的绘制方法
对于箱线图可以用Excel和Minitab软件绘制。
(1)Excel中可以通过上面计算出来的四分位数,结合股价图的“开盘-盘高-盘底-收盘”图来实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1、Q0、Q2、Q4。比较简单在此就不再赘述。
(2)下面来说下使用Minitab软件来绘制箱线图。
①在Minitab表格中输入如下数据
②点击菜单“图形”后选择“箱线图”,出现图如下对话框
③选择“简单”选项后,点击确定。出现如下对话框
④将数据1选择添加到图形变量中,下方尺度,标签等内容可以根据需求添加,可以默认不选,点击确定。可以得到如下数据1箱线图;同理也可以得到数据2的箱线图。
从上面图中显示的参数数据可以看出,与我们在前面计算出的结果一致。
好了,有关箱线图的内容就简单说到这里,随着后续六西格玛学习的不断深入,也会不断加深对此工具的理解。本文希望能够抛砖引玉,欢迎大家探讨。更多六西格玛工具和管理体系解读,欢迎关注本公众号。