很有幸加入了居士的数据自习室,大家互相监督一起学习。希望自己可以坚持下去。

一、数据的集中趋势描述

1. 算数平均值分为简单算数平均值和加权算数平均值

简单算数平均值:数据集合中所有数的和除以数据的个数

加权算数平均值:针对数据集合中每个数据值的重要程度不一的情况,采用所有数据值乘以相应权重值的和再除以数据个数来计算

算数平均值易受极大值或极小值的影响,而掩盖数据的真实特性
eg:全国人家年收入被平均了,我们常常觉得脱了国家的后腿,其实是因为有一些高收入人群拉高了平均值

2.几何平均值:

数据直接的关系是乘除关系

eg:由生产线上每道工序的合格率来计算整条生产线的平均合格率,比如产品线有三道工序合格率依次是60%,70%,80%,那么整条线的合格率是(60% * 70% * 80%)再开立方根。

3.众数:

数据集合中出现次数最多的数

4.中位数:

先将数据排序,然后最中间的数就是中位数,如果最中间有两个数,就取两数的平均值做中位数
不受个别极端值影响,稳定,常用来度量具有偏斜性质的数据集合的集中趋势

二、数据的离散程度描述

1.数值型数据

极差:

又称全距,数据集合中最大值与最小值的差值

平均偏差:

所有数值与平均值的平均偏差距离,计算距离的时候使用绝对值可消除负号

方差:

所有数值与平均值差的平方的和,再取平均值

标准差:

取方差的正值平方根(标准差越小,数据离散程度越小,稳定性越好)

变异系数(又名离散系数):

标准差除以算数平均值(相比于标准差,对于分析算数平均值不同的数据集合,变异系数更有说服力)

2.顺序数据

将数据由低到高有序排列的,排在1/4位置的数为第一四分位数Q1,排在2/4位置的数为第二四分位数Q2(即中位数),排在3/4位置的数为第三四分位数Q3.

四分位极差:第一四分位数与第三四分位数的差值(Q3-Q1)

3.分类数据:

异众比率:

指的是总体数据中非众数次数与总体全部次数之比

异众比率主要用于测度分类数据的离散程度

三、分布的形态

1.偏态系数

说明随机系列分配不对称程度的统计参数

平均数>中位数>众数 :正偏态、右偏态
平均数<中位数<众数 :负偏态、左偏态
平均数=中位数=众数 :对称分布

特点:长尾在哪边就往哪偏,峰与偏态相对,峰左移右偏,峰右移左偏

偏态系数:SK<0左偏,负偏;SK>0右偏,正偏

描述性数据分析报告 描述性数据汇总_描述性数据分析报告

2. 峰态系数

峰态系数是用来衡量分布曲线顶端的扁平尖稍程度,有时候两组数据的平均值,标准差,偏态系数都相同,但是峰态系数不同。
正态分布的峰度K=3,均匀分布的峰度K=1.8

描述性数据分析报告 描述性数据汇总_数据_02