单变基本统计量
对于数量类型的数据样本X1,X2,X3,…,Xn,其数量统计量的定义如下
- 均值(Mean)
- 方差(Sample Variance)
- 标准差(Standard Deviation)
方差和标准差都是描述取样数据的离散(变异)程度,标准差值越大,样本数据离散程度越大,均值的代表性就越低。唯一不同的就是标准差的量纲与样本数据的量纲相同 - 变异系数(Coefficient of Variance)
是一个无量纲的量,用来刻画数据的相对分散性在均值相同时,使用标准差来比较两取样数据的相对离散程度在均值不同时,使用变异系数来比较两取样数据的相对离散程度 - 标准误(Standard Error)
标准误的原本概念为:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误,但为了方便计算,标准误的值一般取使用如下公式计算得出的值作为近似值
为了更好的立即标准误可以参考这里 - k阶原点矩(Moment)
显然,均值就是一阶原点矩 - k阶中心矩(Central Moment)
显然,一阶中心矩恒等于0 - 偏度(Skewness)
k3、k2分别值样本数据的3阶中心矩、2阶中心矩,即偏度能用来刻画数据对称性关于均值对称的数据,其偏度为0若左侧数据比较分散,则偏度小于0若右侧数据比较分散,则偏度大于0 - 峰度(Kurtosis)
k4、k2分别值样本数据的4阶中心矩、2阶中心矩,即峰度可以描述样本数据分布形态相对于正态分布的陡缓程度若Kurtosis=0,则与正态分布的陡缓程度相同若Kurtosis>0,则比正态分布的高峰更加陡峭,表现为尖顶峰若Kurtosis=0,则比正态分布的高峰更加平缓,表现为平顶峰
以上主要是参考自杨旭的《重构大数据统计》
















