mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据


一、均值

书接上文

假设我们已经拿到大约 2400 亿个细胞的X基因表达值。

我们接下来,要计算总体均值与估计总体均值。


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差 标准差_02


使用实际的2400亿个细胞计算均值,也就是总体均值(Population Mean)


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_03


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_04


从总体中抽样 5 个样本,就能计算估计均值(Estimated Mean):


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_05


统计学中,用符号 x-bar 来表示估计均值,也叫样本均值(Sample Mean)

使用希腊符号 μ 来表示总体均值(Population Mean)

可以从上图看到,样本均值与总体均值不同,但是随着测量越来越多的数据,x-bar会越来越接近μ。

二、方差、标准差


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据_06


方差和标准差,代表数据在总体均值周围的分布情况,计算总体方差的公式:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据_07


  • x-μ, 代表从每个数据 x 中减去总体均值 μ。
  • x-μ
  • 将每个样本的差异 (x-μ)^2,求和,
  • 除以样本数,为的是平均化平方后的差异

利用公式去计算,实际数据中的总体方差:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_08


因为每个数据都是经过平方的,所以方差的单位是X基因表达量的平方。

但是X轴上的单位并没有平方,所以在X轴上不能绘制方差。

为了解决这个问题,我们幼儿园的知识告诉我们,只要对每一项平方根就行:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_09


也就得到了总体标准差,很容易得到它的值:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据_10


好,目前我们就可以利用均值和标准差来绘制正态分布曲线了:

总体方差和标准差来决定曲线的宽度,反应数据如何分布在总体均值周围


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据_11


但是,在实验中,我们不可能去一一测量2400亿个细胞,总体数据几乎不可能拿到。

所以,我们几乎不计算总体均值,总体方差,总体标准差。

一般是用小样本来估计总体均值,方差,标准差。

但是,在做实验的时候,看到的只是一堆数据,比如这样:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差 标准差_12


可以很轻松的获得这一堆数据的均值


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_13


但是,难受的是,我们根本看不到曲线或者总体均值


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_14


这个时候就需要估计总体均值,


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_15


给出计算公式:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_数据_16


n-1 是为了弥补我们计算的样本平均值而不是总体平均值的差异,否则会一直低估总体均值的方差。

为什么要除以 n-1?
这是因为实验数据和样本平均值之间的差异,往往小于数据和总体均值之间的差异。


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差 标准差_17


反应在曲线上:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_15


x-bar 值会在μ的左右来回摆动,随着数据量的增多,无限接近μ

根据数据计算估计总体方差和标准差


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_19


现在有了这些参数就可以画曲线了:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_标准差_20


与开始利用2400亿总体数据绘制的曲线比对下,可以发现我们实验与真实分布离的并不远:


mysql 平均值 标准差 上四分位数 变异系数 平均值±标准差spss_方差_21


到目前为止,我们利用5个实验数据完成了估计总体数据,而且结果还不错,这样节省我我们大量的经历和时间。

三、总结

  • 如果我们有一个群体的所有数据,就可以直接计算总体均值。
  • 当没有群体全部数据时,可以利用部分样本数据使用相同的公式来估计总体均值。
  • 同样的,我们有一个群体的所有数据,就可以直接计算总体方差和标准差。
  • 当没有群体全部数据时,就不能用总体方差和标准差的公式了,这时候需要考虑用 n-1 去抵消样本平均值为总体均值说产生的差异。