分层抽样python sklearn 分层抽样法

转载

复习统计学的时候记了一些笔记。

简单随机抽样(Simple Random Sampling)
分层抽样(Stratified Sampling)：把总体划分为相互独立的不同层，在不同个体里分别进行随机抽样。可以提高样本的代表性，因为确保从不同特征的层里都抽取了样本。比如以性别，地域，年段等进行划分。
整群抽样(Cluster Sampling): 抽取一整个群，对这个群里所有样本进行调查。比如检验一批零件，并不是直接从所有零件里抽取样本，而是先把零件划分为N盒，从N盒里随机抽取n盒，然后检验这n盒里所有零件。
系统抽样(Systematic Sampling)：把要调查的对象编号排列，先随机抽取一个数字作为起始的样本，然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本，剩下就是抽取第 $分层抽样python sklearn 分层抽样法_数据分析$ 号作为样本。

平均数（Mean）：简单平均数，加权平均数，几何平均数
几何平均数（Geometric Mean）： $分层抽样python sklearn 分层抽样法_分层抽样python sklearn_02$ , 计算平均增长率可以用
众数（Mode）：数据的集中趋势，用在数据量较大的时候，不受数据极端值影响，但有可能不唯一
中位数（Median），适合偏斜程度较大时使用
四分位数（Quartile）：处于25%（lower quartile）和75%（upper quartile）位置上的数值

当数据不是对称分布（Mean=Median=Mode时）：

左偏（Left Skewed，左图） 和右偏（Right Skewed，右图）：

分层抽样python sklearn 分层抽样法_标准差_03

众数就是数据最集中的那个点，也就是density的最高点；中位数把density曲线下方的面积平均分为两半；左偏是左边的尾巴长，有极小值拉低了平均值；而右偏则是右边的尾巴长，有极大值拉高了平均值。所以：

Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏

异众比率（Variation Ratio）: 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据：这个值越大，众数的代表性就越差。
四分位差（Inter-Quartile Range）:中间50%数据的离散程度。IQR=upper quartile-lower quartile。
极差（Range）
平均差（Mean Absolute Deviation）： $分层抽样python sklearn 分层抽样法_分层抽样python sklearn_04$
方差（Variance），标准差（Deviation）
离散系数, 或变异系数（Coefficient of Variation）： $分层抽样python sklearn 分层抽样法_统计学_05$ , 当计量单位不同时使用，这个值越大说明数据越离散。

1）数据标准化（Standardization）： $分层抽样python sklearn 分层抽样法_统计学_06$ , 把平均数变为0，标准差变为1，也称为z-score。

2）当一组数据是对称分布时：

当数据不是对称分布时，切比雪夫不等式：Chebyshev’s Inequality适用于任何分布的数据：

至少有 $分层抽样python sklearn 分层抽样法_统计学_07$ 的数据落在±k个标准差之内（ $分层抽样python sklearn 分层抽样法_统计学_08$ ）。

偏态系数（Coefficient of Skewness，SK）
$分层抽样python sklearn 分层抽样法_数据分析_09$ , s是样本标准差。
衡量数据分布对称性。 $分层抽样python sklearn 分层抽样法_分层抽样python sklearn_10$ : 对称； $分层抽样python sklearn 分层抽样法_统计学_11$ : 右偏； $分层抽样python sklearn 分层抽样法_数据_12$ : 左偏。如果 $分层抽样python sklearn 分层抽样法_数据分析_13$ ,是高度偏态；如果 $分层抽样python sklearn 分层抽样法_数据分析_14$ ,是中等偏态。
峰态系数（Coefficient of Kurtosis，K）
【公式里含 $分层抽样python sklearn 分层抽样法_标准差_15$ 】
衡量数据分布尖峰的程度。如果以3作为标准，当 $分层抽样python sklearn 分层抽样法_数据分析_16$ 是正态分布， $分层抽样python sklearn 分层抽样法_数据分析_17$ 是尖峰分布， $分层抽样python sklearn 分层抽样法_统计学_18$ 是扁平分布。