文章目录

  • 抽样方法
  • 集中趋势的度量
  • 补充:左偏和右偏分布
  • 离散程度的度量
  • 补充:数据标准化;经验法则
  • 分布形状的度量


复习统计学的时候记了一些笔记。

抽样方法

  • 简单随机抽样(Simple Random Sampling)
  • 分层抽样(Stratified Sampling):把总体划分为相互独立的不同层,在不同个体里分别进行随机抽样。可以提高样本的代表性,因为确保从不同特征的层里都抽取了样本。比如以性别,地域,年段等进行划分。
  • 整群抽样(Cluster Sampling): 抽取一整个群,对这个群里所有样本进行调查。比如检验一批零件,并不是直接从所有零件里抽取样本,而是先把零件划分为N盒,从N盒里随机抽取n盒,然后检验这n盒里所有零件。
  • 系统抽样(Systematic Sampling):把要调查的对象编号排列,先随机抽取一个数字作为起始的样本,然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本,剩下就是抽取第分层抽样python sklearn 分层抽样法_数据分析号作为样本。

集中趋势的度量

  • 平均数(Mean):简单平均数,加权平均数,几何平均数
    几何平均数(Geometric Mean)分层抽样python sklearn 分层抽样法_分层抽样python sklearn_02, 计算平均增长率可以用
  • 众数(Mode):数据的集中趋势,用在数据量较大的时候,不受数据极端值影响,但有可能不唯一
  • 中位数(Median),适合偏斜程度较大时使用
  • 四分位数(Quartile):处于25%(lower quartile)和75%(upper quartile)位置上的数值

补充:左偏和右偏分布

当数据不是对称分布(Mean=Median=Mode时):

左偏(Left Skewed,左图)右偏(Right Skewed,右图)

分层抽样python sklearn 分层抽样法_标准差_03


众数就是数据最集中的那个点,也就是density的最高点;中位数把density曲线下方的面积平均分为两半;左偏是左边的尾巴长,有极小值拉低了平均值;而右偏则是右边的尾巴长,有极大值拉高了平均值。所以:

Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏

离散程度的度量

  • 异众比率(Variation Ratio): 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据:这个值越大,众数的代表性就越差。
  • 四分位差(Inter-Quartile Range):中间50%数据的离散程度。IQR=upper quartile-lower quartile。
  • 极差(Range)
  • 平均差(Mean Absolute Deviation)分层抽样python sklearn 分层抽样法_分层抽样python sklearn_04
  • 方差(Variance),标准差(Deviation)
  • 离散系数, 或变异系数(Coefficient of Variation)分层抽样python sklearn 分层抽样法_统计学_05, 当计量单位不同时使用,这个值越大说明数据越离散。

补充:数据标准化;经验法则

1)数据标准化(Standardization)分层抽样python sklearn 分层抽样法_统计学_06, 把平均数变为0,标准差变为1,也称为z-score

2)当一组数据是对称分布时:

  • 约有68%的数据在平均数±1个标准差的范围内
  • 约有95%的数据在平均数±2个标准差的范围内
  • 约有99%的数据在平均数±3个标准差的范围内
    所以当出现在平均数三个标准差之外的数据,可以当做outlier

当数据不是对称分布时,切比雪夫不等式:Chebyshev’s Inequality适用于任何分布的数据:

至少有分层抽样python sklearn 分层抽样法_统计学_07的数据落在±k个标准差之内(分层抽样python sklearn 分层抽样法_统计学_08)。

分布形状的度量

  • 偏态系数(Coefficient of Skewness,SK)
    分层抽样python sklearn 分层抽样法_数据分析_09, s是样本标准差。
    衡量数据分布对称性。分层抽样python sklearn 分层抽样法_分层抽样python sklearn_10: 对称分层抽样python sklearn 分层抽样法_统计学_11: 右偏分层抽样python sklearn 分层抽样法_数据_12: 左偏。如果分层抽样python sklearn 分层抽样法_数据分析_13,是高度偏态;如果分层抽样python sklearn 分层抽样法_数据分析_14,是中等偏态
  • 峰态系数(Coefficient of Kurtosis,K)
    【公式里含分层抽样python sklearn 分层抽样法_标准差_15
    衡量数据分布尖峰的程度。如果以3作为标准,当分层抽样python sklearn 分层抽样法_数据分析_16是正态分布,分层抽样python sklearn 分层抽样法_数据分析_17是尖峰分布,分层抽样python sklearn 分层抽样法_统计学_18是扁平分布。

····················未完待续····················
(下集预告:一些常见的分布,和分层抽样python sklearn 分层抽样法_分层抽样python sklearn_19