grafana 柱状图显示数值 graphpad柱状图上显示数据_grafana 柱状图显示数值


我们前几天推送了Graphpad prism的简明使用教程(科研论文作图之Graphpad Prism )。有个小伙伴问我们在他的论文中该使用那个图比较好。小编想起来以前写过一些相关的推送,今天就先跟大家详细总结一下我们试验数据统计中常用的 量,图,和线。有了这些基本知识,再结合我们上边介绍的软件,相信可以解决大部分的一般统计图表问题。

如果不想看下边的长篇大论,请看小编给您总结的懒人包:


grafana 柱状图显示数值 graphpad柱状图上显示数据_柱状图_02


标准差:
群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。


grafana 柱状图显示数值 graphpad柱状图上显示数据_标准差_03


我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的(x = u),但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉,它的意义是判断某个值是否是小概率事件,比如某个个体的测量值在三个标准差之外,我们就说这个数据点是个小概率事件(p< 0.01),在我们试验中也即意味着这个数据是个outlier,很有可能是混杂的种子,或者是测量出错了,数据输错了。


grafana 柱状图显示数值 graphpad柱状图上显示数据_中统计本周周一到周日数据_04


用于描述这种测量值离散程度的图大多为Histogram(直方图)和Box plot(箱式图)。我们以后再介绍这两个图,尤其箱式图,是一个很不错的工具。

这里要特别提醒一下:以上举的例子是以整个群体为对象的,但在我们实际操作过程中,我们拿到的数据一般都只是一个群体中的一部分样本(比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的),对于样本的标准差的公式如下:分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S,而不是STDEV.P。


grafana 柱状图显示数值 graphpad柱状图上显示数据_柱状图_05


均值的标准误:

接下来我们来看标准误。标准误衡量的是样本均值的离散程度,可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小,就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式,我们可以看到所取的样本量越大,标准误就越小,我们得到的均值就越接近于整个群体实际的均值。


grafana 柱状图显示数值 graphpad柱状图上显示数据_数据_06


基于SEM的这个统计学意义,当我们用t-test 测验两个样本均值是否有差异时,在均值上添加SEM更恰当,而非SD。当然,不得不说的是,现在大部分RNA表达的图都是用柱状图和标准差来做,我想其中一个罪魁祸首就是Excel吧,竟然没有直接SEM的计算公式,我以前用Excel处理数据时就只知道Average和SD,自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致,当一个试验的样本量特别大的时候,SEM就会非常小,甚至接近于0,画在柱状图上就看不到了,这也是有人选择标准差做error bar的原因吧。

均值的置信区间:

另外描述均值分布的还有均值的置信区间(Confidence Interval of the mean),用来估计均值误差范围的区间。它的计算公式如下:


grafana 柱状图显示数值 graphpad柱状图上显示数据_中统计本周周一到周日数据_07


其中S/√n为标准误,t = TINV(0.05, N-1), N 为样本大小,在Excel中输入此公式就可以得到t值,然后再代入均值置信区间的公式。从下面的t表来看,当样本量足够大时,t接近c的值1.96(a=0.05),这个c值用于大家平常在网上查到的均值置信区间的公式(如下),但我们平常的试验单因素样本量很少能达到500,所以此公式慎用。


grafana 柱状图显示数值 graphpad柱状图上显示数据_柱状图_08


至于原因以及关于均值置信区间的计算公式的推导,具体参考这篇文章:置信区间的求法


grafana 柱状图显示数值 graphpad柱状图上显示数据_数据_09


另外,从这个表中,我们也可以看到,当样本量小于10的时候,置信区间范围将比SD还要大。大家可以根据SD,SEM和CI of the mean三者的公式自行推算。

这里要注意标准误(Standard Error:SE)和置信区间(Confidence Interval:CI)都只是一个统称,它们既可以描述均值,也可以描述中位数,甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean(SEM)和CI of the mean。

另一点要注意的是:判断两组数据的均值差异是否显著,不能只看均值大小,误差线,或者p值;而是应该结合起来看:当样本比较少时,标准误也就大,这时计算的p value可能不显著,但增加了样本数量后,标准误降低了,p值可能就显著了。

小提琴图示例

说了这么多理论,下面我们用三种图(柱状图,点状图和小提琴图)来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据:左边的和右边两组是极显著差异,右边两组没有显著差异。

1.左图是柱状图加SD,右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了:尤其是柱状图加SD,很难看出极显著。


grafana 柱状图显示数值 graphpad柱状图上显示数据_数据_10


2.左图是柱状图加SEM,右边是小提琴图加SEM。加SEM显然要比SD“好看”很多。尤其是小提琴图,由于比柱状图在纵坐标上有优势,看起来就是极显著。但加SEM也有“缺点”,第二组和第三组数据的均值有差异,而且SEM没有重叠,给人一种二者也是显著差异的感觉。


grafana 柱状图显示数值 graphpad柱状图上显示数据_标准差_11


3.左图是柱状图加CI of the mean,右边是小提琴图加CI of the mean。对于这三组数据,最佳方案就是均值加均值的置信区间了。完美的避免了上面所提到的缺点:既可以明显看出极显著差异,又可以化解不显著的差异。


grafana 柱状图显示数值 graphpad柱状图上显示数据_柱状图_12


有没有老师告诉过你:误差线重叠,差异就不显著了!下面我们给你总结了最全面的说法:

置信区间没有重叠,二者肯定有显著差异。但置信区间有重叠,不一定说明二者没有显著差异。

标准误有重叠,二者肯定没有显著差异。但标准误没有重叠,不能说明二者就一定有显著差异。

点状图示例:

另一组示例,还是左边的和右边两组是极显著差异,右边两组没有显著差异。这个示例主要是看当样本量很小时(比如RNA 表达实验),采用SEM更恰当,因为CI of the mean太大了。。。三个图从左到右依次为点状图加SD,SEM,和CIof the mean.


grafana 柱状图显示数值 graphpad柱状图上显示数据_中统计本周周一到周日数据_13