标准差(standard deviation, SD)和标准误(standard error of the mean, SEM)之间的区别与联系主要有以下几点:
1. SD量化的是样本数据彼此之间的差异性,分散性;
2. SEM量化的是对总体数据真实均值估计的精确度,它同时考虑了SD和样本量;
3. SD和SEM的单位都和样本数据的单位相同;
4. 根据计算公式可知,SEM肯定是小于SD的;
5. 样本量越大,SEM越小。这是肯定的,因为大样本的平均值肯定比小样本的平均值更加接近总体真实的均值。样本量足够大,即使数据非常分散,也可以非常精确地知道均值。
6. 而对于SD而言,并不是说大样本量的SD就一定大于或者小于小样本量的SD。SD不像SEM那样,发生可预测的变化(样本量越大,SEM越小;样本量越小,SEM越大)。SD不会发生可预测的变化,从样本中计算的SD就是对总体SD的最佳估计,只能说样本量越大,对总体SD的估计越精确吧。
那么什么情况下选择报告标准差,什么情况下选择报告标准误呢?
其实根据SD和SEM的定义,对其各自的适用性也大概有一定的了解了。
1. 比如样本中的每个值代表一个不同的个体,这时我们可能想要显示值之间的差异,这时就应该选择报告SD。比如,下面这个图中,是为了显示变异程度的,那么自然就选择报告SD。
2. 如果我们的目的是利用均值进行t检验或者方差分析,或者显示我们的数据与模型预测之间的接近程度,那么与显示数据之间的变异性相比,我们更感兴趣的是显示样本数据定义均值的准确性,那么在这种情况下,我们就报告SEM。如下所示,进行ANOVA分析,所以报告SEM。