python 画置信区间置信区间prism怎么画

转载

mob6454cc6a249f 2023-11-17 22:02:42

文章标签 python 画置信区间数据 Prism 经验法则 文章分类 Python 后端开发

python 画置信区间置信区间prism怎么画_python 画置信区间

“你有多确定？”这是分析数据时的一个基本问题，可以使用置信区间来回答这个问题。

关键概念：平均值置信区间

平均值的置信区间是多少？

平均值的置信区间（CI）告诉您确定平均值的精确程度。

例如，您对小样本（N = 5）的重量进行测量，然后计算平均值。该平均值不太可能等于群体平均值。可能差异的程度取决于样本量和样本变异性。

如果您的样本很小且可变，则样本平均值很可能与群体平均值相差甚远。如果您的样本很大且几乎不分散，则样本平均值可能与群体平均值非常接近。统计计算可以结合样本量与变异性（标准偏差）来生成群体平均值的置信区间。顾名思义，置信区间是一系列值。

在解释平均值的置信区间时做了哪些假设？

如需解读平均值的置信区间，必须假设所有值均从群体中独立随机抽样得到，且该群体值的分布服从高斯分布。如果您接受这些假设，则95%置信区间有95%的几率包含真实的群体平均值。换言之，如果您基于许多样本生成许多95%置信区间，您可以预期95%置信区间在95%的情况下包含真实的群体平均值，而在其他5%的情况下不包含群体平均值。

平均值的置信区间一定会包括真实平均值

下图中的靠上示图中显示了10组数据（N = 5），随机抽样取自高斯分布，平均值为100，标准偏差为35。下部视图中显示了每个样本平均值的95%置信区间。

python 画置信区间置信区间prism怎么画_Prism_02

python 画置信区间置信区间prism怎么画_数据_03

由于这些数据均为模拟数据，我们知道真实群体平均值（100）的确切值，因此可以询问每个置信区间是否包括真实群体平均值。在上图中从右数第二个数据集中，95%置信区间不包括100的真实平均值（虚线）。

在分析数据时，您不知道群体平均值，因此不能知道某个特定置信区间是否包含真实的群体平均值。您所知道的是，置信区间有95%的几率包括群体平均值，有5%的几率不包括群体平均值。

平均值的置信区间的计算方式？

平均值的置信区间以样本平均值为中心，并在两个方向上对称延伸。该距离等于平均时间SE乘以t分布的常数。该常数的值仅取决于样本量（N），如下所示。

N	乘数
2	12.706
3	4.303
5	2.776
10	2.262
25	2.064
50	2.010
100	1.984
500	1.965
N	= TINV（0.05，N - 1）

上图中显示的样本有五个值。因此，其中一个样本的置信下限计算为平均值减去2.776乘以SEM，置信上限计算为平均值加上2.776乘以SEM。

上表的最后一行示出了用于在Excel中计算乘数的公式。较新的语法 = T.INV.2T（0.005，N - 1）。

一种常见的经验法则是，95%置信区间从加上或减去两个SEM的平均值计算得到。对于大样本，该法则非常准确。对于小样本，与按经验法则得出的置信区间相比，平均值的置信区间要宽得多。

解读平均值的置信区间

置信区间无法量化可变性

95%置信区间是一个数值范围，您可以95%确定包含群体的真实平均值。这与包含95%数值的范围不同。以下图表突出了这一区别。

python 画置信区间置信区间prism怎么画_Prism_04

该图表显示了三个样本（大小不同），都是从同一群体中抽样。

左侧是小样本，95%置信区间与数据范围相似。但是右侧的大样本中只有一小部分值在置信区间范围内。这很有道理。95%置信区间定义了一个值范围，您可以95%确定包含群体平均值。大样本的平均值比小样本的平均值具有更高的精度，因此从大样本计算出的置信区间非常窄。

注意：请勿将置信区间误解为包含95％值的范围。

95%的几率是什么？

准确来说，计算置信区间有95%的几率具有真实的群体平均值。群体平均值有95%的几率在区间范围内的这一说法并不太准确。

有什么不同？

群体平均值只有一个值。您不知道该值是什么（除非在做模拟），但它只有一个值。即使重复进行实验，该值也不会改变（您仍然不知道该值是什么）。因此，严格来说，询问群体平均值在某个范围内的概率并不总是正确的。

相比之下，计算的置信区间取决于偶然收集的数据。如果重复进行实验，则得出的置信区间几乎肯定不同。因此，可以询问区间包含群体平均值的概率。

询问群体平均值在区间内的概率并不太正确。概率要么在区间范围内，要么不在。并无关于此方面的几率。您可以说，如果多次进行此类实验，置信区间不会都一样，您会期望95%的置信区间包含群体平均值，5%的置信区间不包含群体平均值，您永远无法得知某个特定实验的区间是否包含群体平均值。

95%并无特别之处

虽然置信区间通常用95%的置信度来表示，但这只是一个惯例。可以针对任何想要的置信度计算置信区间。

人们经常惊讶于99%的置信区间比95%的区间更宽，而90%的区间则更窄。但这完全是合理的。如果区间包含真实参数的置信度越高，则区间将会更宽。如果您想100.000%确定一个区间包含真正群体，则该区间必须包含所有可能的值，因此需要非常宽。如果您只有50%的把握确定一个区间包含真正的值，则该区间可能会更窄。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。