学习笔记

学习书目:《统计学:从数据到结论》



成功概率或总体比例的置信区间



大总体和大样本情况



假设有一个总体很大,我们共调查了R语言与总体比例的置信区间_数据个人,其中持有某种观点的为R语言与总体比例的置信区间_数据_02人,则样本比例为R语言与总体比例的置信区间_R语言_03,那么比例R语言与总体比例的置信区间_数据_04R语言与总体比例的置信区间_数据_05近似置信区间为:
R语言与总体比例的置信区间_总体比例的置信区间_06

  • 啥是大样本?

一个近似判断大样本的方法,是当区间:
R语言与总体比例的置信区间_总体比例的置信区间_07

完全包含在(0, 1)区间内部时,可以认为样本足够大。



大总体和小样本情况



在大总体,小样本时,有木有精确的关于比例的置信区间的求法呢?当然有!

我们用R语言与总体比例的置信区间_R语言_08代表在R语言与总体比例的置信区间_数据次伯努利实验中成功的次数的概率,R语言与总体比例的置信区间_数据_04为每次试验成功的概率,则有:
R语言与总体比例的置信区间_数据_11

如果已经观测到R语言与总体比例的置信区间_数据次试验有R语言与总体比例的置信区间_数据_02次成功,那么R语言与总体比例的置信区间_数据_04R语言与总体比例的置信区间_数据_05置信区间R语言与总体比例的置信区间_统计模型_16的上限R语言与总体比例的置信区间_r语言_17应该为,满足:
R语言与总体比例的置信区间_r语言_18
R语言与总体比例的置信区间_数据_04 .

而置信区间的下限R语言与总体比例的置信区间_数据_20应该为满足:
R语言与总体比例的置信区间_r语言_21
R语言与总体比例的置信区间_数据_04 .



小总体情况



在小总体的抽样调查中求比例的问题大都属于超几何分布,这是因为在调查中的抽样属于不放回抽样。由于一切统计模型都是近似模型,超几何分布也不例外。超几何分布要求总体中每一个个体都有同等机会被抽到,但是这不可能在实践中完全做到。

按照计算置信区间的精确方法,这个置信区间应该从求R语言与总体比例的置信区间_统计模型_23(比如总体中的废品个数)的R语言与总体比例的置信区间_R语言_24的置信区间着手,而该区间R语言与总体比例的置信区间_r语言_25上限R语言与总体比例的置信区间_R语言_26应该为满足:
R语言与总体比例的置信区间_R语言_27
的最小的R语言与总体比例的置信区间_统计模型_23.

而其下限R语言与总体比例的置信区间_R语言_29应该满足:
R语言与总体比例的置信区间_r语言_30
的最大的R语言与总体比例的置信区间_统计模型_23.

这里R语言与总体比例的置信区间_r语言_32是参数为R语言与总体比例的置信区间_r语言_33的超几何分布的累计分布函数:
R语言与总体比例的置信区间_数据_34

R语言与总体比例的置信区间_数据_35
有了区间R语言与总体比例的置信区间_r语言_25之后,除以R语言与总体比例的置信区间_r语言_37就可以得到比例R语言与总体比例的置信区间_R语言_38的位置区间了.



R语言实例



这里有两种方法可以进行总体比例的区间估计,但好像都是针对大总体的,一个是binom.test方法,一种是binconf方法。前面一种方法是可以得到精确的置信区间,后一种方法可以得到精确和近似的置信区间。

话不多说,直接放代码:

> library(Hmisc)
> binom.test(50, 200, con = 0.95)$conf
[1] 0.1916072 0.3159628
attr(,"conf.level")
[1] 0.95
> binconf(50, 200, alpha = 0.05, method = "all")
PointEst Lower Upper
Exact 0.25 0.1916072 0.3159628
Wilson 0.25 0.1950817 0.3143410
Asymptotic 0.25 0.1899886 0.3100114

可以看到binom.test方法的输出结果和binconf方法中Exact得到结果是一样的,它们都可以得到精确的置信区间;而binconf的Asymptotic 得到的是大样本下正态近似的置信区间,Wilson是正态近似区间的改进。