1. 测量标准误的意义
举例:分数不能代表一切,也就是说分数不能完全反映一个学生对知识的掌握情况。没休息好,身体不舒服都可能影响书面成绩,而我们也不可能重复考试,那么考试的分数和学生真实分数存在偏差。如何量化考试(测量手段)在反映学生水平时的误差就用到了测量标准误。
心理领域定义:对特定的一组考生来说,与考试分数有关的测量误差的标准差。
2. 测量标准误的计算方法
测量标准误是衡量测量中误差大小的客观指标。它广泛应用在教育、心理等领域。计算公式如(1),
其中,代表考试分数的标准差;代表测试的可靠性,即信度系数。如果统计中信度已知(默认0.75【4】),那么直接代入(1)即可,或者通过公式(2)计算。
代表真实水平的方差;代表测试水平的方差;
由(1)可知,信度越高,标准误越小;效度越低,标准误越大。
3. 的置信区间
在描述的时候通常伴随一个置信区间(Confidence Intervals,)。如给定了某次学生的书面分数(),由于它含有误差,那么可以给定一个一个范围、区间或分数范围来表征有多大的可能包括学生真正的分数。常见中的置信区间有如下几种:
计算公式 | |
68% | ± |
95% | ±(1.96*) |
99% | ±(2.58*) |
4. 统计显著和实际显著
统计显著的意义大家都已经众所周知,利值来衡量零假设是否显著,但在实际中,统计显著并不能反映实际的一些情况,如以配对检验为例,当样本的变动很小或者样本数目很大时 (size effect),统计检验的结论对实际情况并没有指导意义【5】。 因此, “实际显著” 这个概念就诞生了【4】。测量标准误可以是一种对统计显著的信息补充,以近一步判断现实显著。
上述的描述如果过于复杂,那么我将简化一个例子。如果我们测量学生A的体重是50kg,学生B的体重是50.05kg。简单理解统计显著是均值的比较,则学生A的体重与学生B的体重显著不同。放在现实显著的概念里,我们并不认为两者的体重显著相关,因为比较小数点后两位的数字是没有现实意义的(的作用:允许有区间波动并认为不显著)。
实无名,名无实。名者,伪而已矣。
5. 参考文献
【1】https://www.statisticshowto.com/standard-error-of-measurement/
【2】使用时的常见问题
【3】百科
【4】Peeters, M. J. . (2016). Practical significance: moving beyond statistical significance. Currents in Pharmacy Teaching & Learning, 8(1), 83-89.
【5】例子