文章目录
- 抽样方法
- 集中趋势的度量
- 补充:左偏和右偏分布
- 离散程度的度量
- 补充:数据标准化;经验法则
- 分布形状的度量
复习统计学的时候记了一些笔记。
抽样方法
- 简单随机抽样(Simple Random Sampling)
- 分层抽样(Stratified Sampling):把总体划分为相互独立的不同层,在不同个体里分别进行随机抽样。可以提高样本的代表性,因为确保从不同特征的层里都抽取了样本。比如以性别,地域,年段等进行划分。
- 整群抽样(Cluster Sampling): 抽取一整个群,对这个群里所有样本进行调查。比如检验一批零件,并不是直接从所有零件里抽取样本,而是先把零件划分为N盒,从N盒里随机抽取n盒,然后检验这n盒里所有零件。
- 系统抽样(Systematic Sampling):把要调查的对象编号排列,先随机抽取一个数字作为起始的样本,然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本,剩下就是抽取第
号作为样本。
集中趋势的度量
- 平均数(Mean):简单平均数,加权平均数,几何平均数
几何平均数(Geometric Mean):, 计算平均增长率可以用
- 众数(Mode):数据的集中趋势,用在数据量较大的时候,不受数据极端值影响,但有可能不唯一
- 中位数(Median),适合偏斜程度较大时使用
- 四分位数(Quartile):处于25%(lower quartile)和75%(upper quartile)位置上的数值
补充:左偏和右偏分布
当数据不是对称分布(Mean=Median=Mode时):
左偏(Left Skewed,左图) 和右偏(Right Skewed,右图):

众数就是数据最集中的那个点,也就是density的最高点;中位数把density曲线下方的面积平均分为两半;左偏是左边的尾巴长,有极小值拉低了平均值;而右偏则是右边的尾巴长,有极大值拉高了平均值。所以:
Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏
离散程度的度量
- 异众比率(Variation Ratio): 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据:这个值越大,众数的代表性就越差。
- 四分位差(Inter-Quartile Range):中间50%数据的离散程度。IQR=upper quartile-lower quartile。
- 极差(Range)
- 平均差(Mean Absolute Deviation):
- 方差(Variance),标准差(Deviation)
- 离散系数, 或变异系数(Coefficient of Variation):
, 当计量单位不同时使用,这个值越大说明数据越离散。
补充:数据标准化;经验法则
1)数据标准化(Standardization):, 把平均数变为0,标准差变为1,也称为z-score。
2)当一组数据是对称分布时:
- 约有68%的数据在平均数±1个标准差的范围内
- 约有95%的数据在平均数±2个标准差的范围内
- 约有99%的数据在平均数±3个标准差的范围内
所以当出现在平均数三个标准差之外的数据,可以当做outlier。
当数据不是对称分布时,切比雪夫不等式:Chebyshev’s Inequality适用于任何分布的数据:
至少有的数据落在±k个标准差之内(
)。
分布形状的度量
- 偏态系数(Coefficient of Skewness,SK)
, s是样本标准差。
衡量数据分布对称性。: 对称;
: 右偏;
: 左偏。如果
,是高度偏态;如果
,是中等偏态。
- 峰态系数(Coefficient of Kurtosis,K)
【公式里含】
衡量数据分布尖峰的程度。如果以3作为标准,当是正态分布,
是尖峰分布,
是扁平分布。
····················未完待续····················
(下集预告:一些常见的分布,和
















