数据分布特征可以从集中趋势、离中趋势及分布形态三个方面进行描述。

 1、平均指标是在反映总体的一般水平或分布的集中趋势的指标。测定集中趋势的平均指标有两类:位置平均数和数值平均数。位置平均数是根据变量值位置来确定的代表值,常用的有:众数、中位数。数值平均数就是均值,它是对总体中的所有数据计算的平均值,用以反映所有数据的一般水平,常用的有算术平均数、调和平均数、几何平均数和幂平均数。

2、变异指标是用来刻画总体分布的变异状况或离散程度的指标。测定离中趋势的指标有极差、平均差、四分位差、方差和标准差、以及离散系数等。标准差是方差的平方根,即总体中各变量值与算术平均数的离差平方的算术平方根。离散系数是根据各离散程度指标与其相应的算术平均数的比值。

3、矩、偏度和峰度是反映总体分布形态的指标。矩是用来反映数据分布的形态特征,也称为动差。偏度反映指数据分布不对称的方向和程度。峰度反映是指数据分布图形的尖峭程度或峰凸程度。

比较重要的几个关键数据。

1. 均值。

2. 加权算数均值。

3. 截断均值。

4. 中位数。

5. 数据倾斜,均值大于中位数,正倾斜;均值小于中位数,负倾斜。

6. 中列数。

7. 百分位数,中位数是第50个百分位数,第一个四分位数Q1是第25个百分位数,第三个四分位数Q3是第75个百分位数。

8. 中间四分位数极差IQR = Q3-Q1。

9. 众数。

数据散布程度度量。

1. 极差,最大值和最小值之间的差异。

2. 绝对平均偏差,AAD  absolute average deviation

3. 中位数绝对偏差  MAD  median absolute deviation

4. 四分位数极差   IQR     interquartiles range