MATLAB箱型图异常值/离群值处理(箱型图红色加号)
博主针对污染物小时浓度值绘制了年变化的箱型图,出现了大片的较高“异常值”,其实是一些高污染事件,并不属于“异常值”。导师建议将异常值归入箱型图。
箱型图能显示出一组数据的最大值(须线上端)、最小值(虚线下端)、中位数(箱体中间线)、上下四分位数(箱体上下缘,也可以认为是75%和25%)及异常值(默认画出来为红色加号)。
异常值:是位于数据系列中的极端值,该异常值非常小或非常大,因此可能影响数据系列的整体。异常值通常被视为极值,由于其极高或极低的值而可能影响整体,因此应从数据中丢弃。
异常值也可以表示为位于分布的整体之外的值,因此可以影响整个数据系列。异常值通常被认为是由于存在可能低估或高估研究的极值而导致测量误差的原因,因为它与来自群体的随机样本中的其他值具有异常距离。
根据所有统计学家遵循的基本标准,对异常值的通用定义是落在第三个四分位数之上或低于第一个四分位数的四分位数距的1.5倍以上。
原文链接:
最大须线长度的乘数,指定为正数值。最大须线长度是 Whisker 和四分位差的乘积。
boxplot 将大于 q3 + w × (q3 – q1) 或小于 q1 – w × (q3 – q1) 的点绘制为离群值,其中 w 是乘数 Whisker,而 q1 和 q3 分别是样本数据的第 25 个和第 75 个百分位数。
如果数据呈正态分布,‘Whisker’ 的默认值大约对应于 +/–2.7σ 和 99.3% 的覆盖率。绘制的须线会延伸到邻近值,该值是非离群值的最远端数据值。
将 ‘Whisker’ 指定为 0,表示不带须线,q1 和 q3 之外的所有点都将视为离群值。
有关经过标注的带须线的箱线图示例,请参阅箱线图。
示例: ‘Whisker’,0
q1是下四分位数,q2是中位数,q3是上四分位数。
设定whisker是一个较大的值就可以将所有的数都包含进来了。
若想讲所有异常值包含进总体内:
boxplot(x,g,'Whisker',10);
10可以是足够大的任何数。
若想去除箱型图的须线:
boxplot(x,g,'Whisker',0);