目录

  • 1. 何谓置信区间
  • 2. 计算置信区间
  • 2.1 正态分布均值的置信区间
  • 2.2 比例的置信区间
  • 2.3 非正态分布数据的置信区间
  • 3. 汇报置信区间
  • 4. Stata实例
  • 4.1 计算置信区间
  • 4.2 画置信区间
  • 5. 总结
  • 6. 相关推文

1. 何谓置信区间

无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。

在统计学中,置信度是描述概率的另一种方式。例如,构建一个具有 95% 置信水平的置信区间,那么 100 次的估计值中将有 95 次落在置信区间。其中,95% 为置信度,或置信水平、置信系数,一般用 CI 表示。如果我们使用  的  来表示统计显著性,那么置信度将是 1-0.05=0.95,即 95%。

我们在很多场景下都会使用置信区间,包括:

  • 比例
  • 总体平均值
  • 总体平均值和比例之间的区别
  • 组间差异

以上均为点估计,并没有给出任何关于变量数据变化的相关信息,因此置信区间对于理解点估计值附近的变化是有用的。例如,我们分别调查了 100 名英国人和美国人看电视的习惯,发现两组人平均每周看 35 小时电视。然而,被调查的英国人看电视的时间存在很大差异,而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同,但英国人的估计值比美国人的估计值有更大的置信区间。

如下图所示,蓝色代表美国人看电视时间的分布情况,绿色为英国人。两份数据均服从正态分布,并且都具有相同的均值 35 小时 (虚线),但是蓝色分布更加集中,而绿色更加分散,说明英国人看电视的时间存在更大的差异性,而美国人看电视的时间更为集中。