1.数据的集中趋势
1.1平均数
- 算术平均数
- average(X1 + X2 + Xn)
- 几何平均数
- power(X1 * X2 * Xn, 1/n)
1.2中位数
- 升序或降序排列后位于中间位置的数值
1.3众数
- 出现的频次最多的数值
2.数据的离散程度
2.1最大值
- 上限
2.2最小值
- 下限
2.3极差(全距)
- 最大值-最小值
- 极差越大,离散程度越大
2.4方差
- 每个观测值与均值的差的平方和,除以观测量
- 方差越大,越不稳定,波动越大
- 方差越小,越稳定,波动越小
2.5标准差
- 方差的平方根
- 标准差越大,越不稳定,波动越大
- 标准差越小,越稳定,波动越小
3.数据的分布形态
3.1偏度(Skewness)
- 衡量一组数据分布形状的对称程度
- 当偏度=0时,分布呈对称的
- 当偏度>0时,分布呈正偏态(右偏,长尾在右侧)
- 当偏度<0时,分布呈负偏态(左偏,长尾在左侧)
3.2峰度(Kurtosis)
- 衡量一组数据分布形状的高低程度
- 当峰度=0时,分布形态为正态峰
- 当峰度>0时,分布形态为尖顶峰(高)
- 当峰度<0时,分布形态为平顶峰(低)
4.四分位数
最大值(100%位置的数值)
上枢纽/上四分位数(Q3,75%位置的数值)
中位数(Q2,50%位置的数值)
下枢纽/下四分位数(Q1,25%位置的数值)
最小值(0%位置的数值)
四分位距(IQR,Q3-Q1)
5.百分位数
百分之K位置的数值
6.协方差
6.1描述变量之间的关系(相关性类别)
- 两组数值中每对变量的偏差乘积的平均值
- 协方差>0,Y随着X变大而变大,同向变化关系,正相关
- 协方差<0,Y随着X变大而变小,反向变化关系,负相关
- 协方差=0,Y与X无趋势关系,无相关
7.相关系数
7.1描述变量之间的关系(相关性程度)
- r>0,正相关
- r<0,负相关
- r=0,无相关
- |r|=1,完全相关
- 0<|r|<1 |r|越接近1,相关性越强 |r|越接近0,相关性越弱
- [0.8, 1),极强相关
- [0.6, 0.8),强相关
- [0.4, 0.6),中度相关
- [0.2, 0.4),弱相关
- (0, 0.2),极弱相关
8.变异系数
又称离散系数,对比两组数据的离散程度大小
标准差/平均值
9.绝对数与相对数
绝对数(数量):如销售额,毛利额,用户量等
相对数(质量):比数/基数,如留存率、转化率、利润率等
10.百分比与百分点
上升10%
上升10个百分点
11.频数与频率
某事物出现的次数,绝对数
某事物出现的次数/总次数,相对数
12.比例与比率
60%
3:5
13.倍数与番数
1+n(增n倍)
2^n(翻n番)
14.横比与纵比
横比:同一时期不同事物的比较
纵比:同一事物不同时期的比较
15.同比、环比、定比
同比,如今年6月与去年6月的比较
环比,如本月与上月的比较
定比:比较值与固定值的比较
16.量化指标
16.1时量
- 衡量事物某种状态的持续时长,如邮寄天数、贷款逾期天数
16.2数量
- 衡量事物的规模大小,如销售额、利润额、人数等
16.3质量
- 衡量事物的质量好坏,如留存率、合格率、转化率、利润率等
17.变量尺度
17.1定性(离散值,维度)
- 定类:如省份、性别等
- 定序:如初级分析师、高级分析师等
17.2定量(连续值,度量)
- 定距:数值,没有绝对零值,可加减运算,不可乘除运算,如温度
- 定比:数值,有绝对零值,可加减运算,也可乘除运算,如身高、体重
18.数据规范化(归一化)
18.1最小-最大值规范化(Min-max)
- 又称离散标准化,将数组中的数值映射到[0, 1]之间,含0和1
- (观测值-最小值)/(最大值-最小值)
18.2零-均值规范化(Z-score)
- 又称标准差标准化,调整数组的均值为0,标准差为1
- (观测值-平均值)/标准差
18.3小数定标规范化(Decimal scaling)
- 移动小数点的位数,将数组中的数值映射到(-1, 1)之间,不含-1和1
- 移动的小数点位数取决于数组中绝对值最大的数值,其整数部分的位数(k)
- 观测值/10^k