很有幸加入了居士的数据自习室,大家互相监督一起学习。希望自己可以坚持下去。
一、数据的集中趋势描述
1. 算数平均值分为简单算数平均值和加权算数平均值
简单算数平均值:数据集合中所有数的和除以数据的个数
加权算数平均值:针对数据集合中每个数据值的重要程度不一的情况,采用所有数据值乘以相应权重值的和再除以数据个数来计算
算数平均值易受极大值或极小值的影响,而掩盖数据的真实特性
eg:全国人家年收入被平均了,我们常常觉得脱了国家的后腿,其实是因为有一些高收入人群拉高了平均值
2.几何平均值:
数据直接的关系是乘除关系
eg:由生产线上每道工序的合格率来计算整条生产线的平均合格率,比如产品线有三道工序合格率依次是60%,70%,80%,那么整条线的合格率是(60% * 70% * 80%)再开立方根。
3.众数:
数据集合中出现次数最多的数
4.中位数:
先将数据排序,然后最中间的数就是中位数,如果最中间有两个数,就取两数的平均值做中位数
不受个别极端值影响,稳定,常用来度量具有偏斜性质的数据集合的集中趋势
二、数据的离散程度描述
1.数值型数据
极差:
又称全距,数据集合中最大值与最小值的差值
平均偏差:
所有数值与平均值的平均偏差距离,计算距离的时候使用绝对值可消除负号
方差:
所有数值与平均值差的平方的和,再取平均值
标准差:
取方差的正值平方根(标准差越小,数据离散程度越小,稳定性越好)
变异系数(又名离散系数):
标准差除以算数平均值(相比于标准差,对于分析算数平均值不同的数据集合,变异系数更有说服力)
2.顺序数据
将数据由低到高有序排列的,排在1/4位置的数为第一四分位数Q1,排在2/4位置的数为第二四分位数Q2(即中位数),排在3/4位置的数为第三四分位数Q3.
四分位极差:第一四分位数与第三四分位数的差值(Q3-Q1)
3.分类数据:
异众比率:
指的是总体数据中非众数次数与总体全部次数之比
异众比率主要用于测度分类数据的离散程度
三、分布的形态
1.偏态系数
说明随机系列分配不对称程度的统计参数
平均数>中位数>众数 :正偏态、右偏态
平均数<中位数<众数 :负偏态、左偏态
平均数=中位数=众数 :对称分布
特点:长尾在哪边就往哪偏,峰与偏态相对,峰左移右偏,峰右移左偏
偏态系数:SK<0左偏,负偏;SK>0右偏,正偏
2. 峰态系数
峰态系数是用来衡量分布曲线顶端的扁平尖稍程度,有时候两组数据的平均值,标准差,偏态系数都相同,但是峰态系数不同。
正态分布的峰度K=3,均匀分布的峰度K=1.8