mysql 平均值标准差上四分位数变异系数平均值±标准差spss

转载

mob64ca1408d5ff 2024-07-08 18:05:59

文章标签 方差标准差数据方差标准差 文章分类 MySQL 数据库

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据

一、均值

书接上文

假设我们已经拿到大约 2400 亿个细胞的X基因表达值。

我们接下来，要计算总体均值与估计总体均值。

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差标准差_02

使用实际的2400亿个细胞计算均值，也就是总体均值（Population Mean）

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_03

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_04

从总体中抽样 5 个样本，就能计算估计均值（Estimated Mean）：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_05

统计学中，用符号 x-bar 来表示估计均值，也叫样本均值（Sample Mean）

使用希腊符号 μ 来表示总体均值（Population Mean）

可以从上图看到，样本均值与总体均值不同，但是随着测量越来越多的数据，x-bar会越来越接近μ。

二、方差、标准差

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据_06

方差和标准差，代表数据在总体均值周围的分布情况，计算总体方差的公式：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据_07

x-μ，代表从每个数据 x 中减去总体均值 μ。
x-μ
将每个样本的差异 (x-μ)^2，求和，
除以样本数，为的是平均化平方后的差异

利用公式去计算，实际数据中的总体方差：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_08

因为每个数据都是经过平方的，所以方差的单位是X基因表达量的平方。

但是X轴上的单位并没有平方，所以在X轴上不能绘制方差。

为了解决这个问题，我们幼儿园的知识告诉我们，只要对每一项平方根就行：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_09

也就得到了总体标准差，很容易得到它的值：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据_10

好，目前我们就可以利用均值和标准差来绘制正态分布曲线了：

总体方差和标准差来决定曲线的宽度，反应数据如何分布在总体均值周围

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据_11

但是，在实验中，我们不可能去一一测量2400亿个细胞，总体数据几乎不可能拿到。

所以，我们几乎不计算总体均值，总体方差，总体标准差。

一般是用小样本来估计总体均值，方差，标准差。

但是，在做实验的时候，看到的只是一堆数据，比如这样：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差标准差_12

可以很轻松的获得这一堆数据的均值

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_13

但是，难受的是，我们根本看不到曲线或者总体均值

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_14

这个时候就需要估计总体均值，

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_15

给出计算公式：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_数据_16

n-1 是为了弥补我们计算的样本平均值而不是总体平均值的差异，否则会一直低估总体均值的方差。

为什么要除以 n-1？
这是因为实验数据和样本平均值之间的差异，往往小于数据和总体均值之间的差异。

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差标准差_17

反应在曲线上：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_15

x-bar 值会在μ的左右来回摆动，随着数据量的增多，无限接近μ

根据数据计算估计总体方差和标准差：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_19

现在有了这些参数就可以画曲线了：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_标准差_20

与开始利用2400亿总体数据绘制的曲线比对下，可以发现我们实验与真实分布离的并不远：

mysql 平均值标准差上四分位数变异系数平均值±标准差spss_方差_21

到目前为止，我们利用5个实验数据完成了估计总体数据，而且结果还不错，这样节省我我们大量的经历和时间。

三、总结

如果我们有一个群体的所有数据，就可以直接计算总体均值。
当没有群体全部数据时，可以利用部分样本数据使用相同的公式来估计总体均值。
同样的，我们有一个群体的所有数据，就可以直接计算总体方差和标准差。
当没有群体全部数据时，就不能用总体方差和标准差的公式了，这时候需要考虑用 n-1 去抵消样本平均值为总体均值说产生的差异。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：一键启动hdfs 和yarn显示权限被拒绝一键启动hadoop集群

下一篇：mysql 生雪花主键

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯