引言

在【MATLAB数据分析】01数据的均值、变异度、偏度和峰度一文中我们介绍了均值、方差、标准差等数字特征,它们都是总体相应特征值的一种矩估计,更适合来自正态分布的数据的分析。但若总体的分布未知,或者数据严重偏态,有若干异常数据(极端值),则上述的分析方法不太合适,这时候可以利用本文介绍的中位数分位数三均值等数据特征计算。本文还给出了MATLAB计算的函数。、



文章目录

  • 引言
  • 1 中位数
  • 1.1 样本均值
  • 1.2 MATLAB编程-中位数
  • 2 分位数
  • 2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点
  • 2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点



Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析个观测值构成行向量Matlab 业务数据分析 matlab进行数据分析_中位数_02

Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_03

其中Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析是样本容量。它是来自某总体的样本,数值从小到大重新排列为:

Matlab 业务数据分析 matlab进行数据分析_matlab_05

这就是次序统计量,显然,最小次序统计量Matlab 业务数据分析 matlab进行数据分析_中位数_06与最大次序统计量Matlab 业务数据分析 matlab进行数据分析_中位数_07分别为:

Matlab 业务数据分析 matlab进行数据分析_matlab_08

1 中位数

1.1 样本均值

中位数的计算公式为:

Matlab 业务数据分析 matlab进行数据分析_分位数_09

中位数是描述数据中心位置的数字特征,大体上比中位数大或小的数据个数为整个数据个数的一半对于对称分布的数据,均值与中位数较接近,对于偏态分布的数据,均值与中位数不同。中位数的另一显著特点是不受个别极端数据变化的影响,具有较好的稳定性

1.2 MATLAB编程-中位数

计算中位数使用的是函数median

xmed=median(x);

也可以使用函数prctile,计算Matlab 业务数据分析 matlab进行数据分析_matlab_10分位数,第二个参数为50。

x50=prctile(x,50);

代码中x50xmed都表示中位数,只是使用函数不同,书写不同以示区分。

2 分位数

2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

Matlab 业务数据分析 matlab进行数据分析_matlab_11和容量为Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析的样本Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_13,它的Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_14分位数(又叫100Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_14百分数)为:

Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_16

其中Matlab 业务数据分析 matlab进行数据分析_分位数_17表示Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_18的整数部分,当Matlab 业务数据分析 matlab进行数据分析_数据分析_19时,定义Matlab 业务数据分析 matlab进行数据分析_matlab_20。大体上整个样本的Matlab 业务数据分析 matlab进行数据分析_数据分析_21的观测值不超过Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_14分位数。0.5分位数Matlab 业务数据分析 matlab进行数据分析_分位数_23(第50百分位数)就是中位数。实际应用中,0.75分位数和0.25分位数比较重要,分别记作上、下四分位数,记作:

Matlab 业务数据分析 matlab进行数据分析_分位数_24

上、下四分位数之差称为四分位极差(或半极差),表示为:

Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_25

它也是度量样本分散性的重要数字特征,尤其对于具有异常值的数据,它作为分散性的度量具有稳健性,因此它在稳健型数据分析中具有重要作用。

当样本Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_13是来自正态总体Matlab 业务数据分析 matlab进行数据分析_中位数_27时,其总体上、下四分位数为:

Matlab 业务数据分析 matlab进行数据分析_分位数_28

故其总体四分位极差为:

Matlab 业务数据分析 matlab进行数据分析_分位数_29

也即:

Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_30

当样本存在异常值时,标准差Matlab 业务数据分析 matlab进行数据分析_分位数_31缺乏稳健性。根据上面的讨论,可以得到总体标准差Matlab 业务数据分析 matlab进行数据分析_分位数_31的一个具有稳健性的估计:

Matlab 业务数据分析 matlab进行数据分析_数据分析_33

它称为四分位标准差。对于任意观测数据Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_13Matlab 业务数据分析 matlab进行数据分析_数据分析_35可以作为数据分散性的稳健度量。

我们知道,均值Matlab 业务数据分析 matlab进行数据分析_matlab_36和中位数Matlab 业务数据分析 matlab进行数据分析_数据分析_37都是描述数据集中位置的数字特征。计算Matlab 业务数据分析 matlab进行数据分析_matlab_36时,用了样本Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_13的全部信息,而Matlab 业务数据分析 matlab进行数据分析_数据分析_37只是用了数据分布中的部分信息,因此在正常情况下,用Matlab 业务数据分析 matlab进行数据分析_matlab_36比用Matlab 业务数据分析 matlab进行数据分析_数据分析_37描述数据的集中位置更优,但当数据存在异常值,Matlab 业务数据分析 matlab进行数据分析_matlab_36缺乏稳健性,这时可用三均值Matlab 业务数据分析 matlab进行数据分析_数据分析_44作为数据集中位置的数字特征。三均值Matlab 业务数据分析 matlab进行数据分析_数据分析_44的计算公式为:

Matlab 业务数据分析 matlab进行数据分析_数据分析_46

在探索性数据分析中,有一种判断数据为异常值的简便方法。称Matlab 业务数据分析 matlab进行数据分析_matlab_47Matlab 业务数据分析 matlab进行数据分析_数据分析_48为数据的下、上截断点。大于上截断点的数据为特大值,小于下截断点的数据为特小值,两者都为异常值。

当总体为正态分布Matlab 业务数据分析 matlab进行数据分析_中位数_27时,理论上、下截断点分别为:

Matlab 业务数据分析 matlab进行数据分析_中位数_50

数据落在上、下截断点之外的概率为0.00698,即对于容量较大的样本,其异常值的概率约为0.00698,由模拟研究,对容量为Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析的正态样本,异常值的平均比率近似为0.00698+Matlab 业务数据分析 matlab进行数据分析_Matlab 业务数据分析_52

2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

计算上四分位数下四分位数用的是函数prctile,函数的第二个参数分别为75和25。

x75=prctile(x,75);%上四分位数
x25=prctile(x,25);%下四分位数

计算四分位极差根据定义来,利用上面得到的上四分位数和下四分位数:

xr1=x75-x25;%四分位极差

计算三均值根据定义计算:

xhM=0.25*x25+0.5*x50+0.25*x75;%三均值

计算上截断点下截断点根据定义计算:

xsj=x75+1.5*xr1;%上截断点
xij=x25-1.5*xr1;%下截断点

最后用一张图说明所有:

Matlab 业务数据分析 matlab进行数据分析_中位数_53

参考资料
[1]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14