学习笔记
学习书目:《统计学:从数据到结论》
成功概率或总体比例的置信区间
大总体和大样本情况
假设有一个总体很大,我们共调查了个人,其中持有某种观点的为人,则样本比例为,那么比例的近似置信区间为:
- 啥是大样本?
一个近似判断大样本的方法,是当区间:
完全包含在(0, 1)区间内部时,可以认为样本足够大。
大总体和小样本情况
在大总体,小样本时,有木有精确的关于比例的置信区间的求法呢?当然有!
我们用代表在次伯努利实验中成功的次数的概率,为每次试验成功的概率,则有:
如果已经观测到次试验有次成功,那么的置信区间的上限应该为,满足:
的 .
而置信区间的下限应该为满足:
的 .
小总体情况
在小总体的抽样调查中求比例的问题大都属于超几何分布,这是因为在调查中的抽样属于不放回抽样。由于一切统计模型都是近似模型,超几何分布也不例外。超几何分布要求总体中每一个个体都有同等机会被抽到,但是这不可能在实践中完全做到。
按照计算置信区间的精确方法,这个置信区间应该从求(比如总体中的废品个数)的的置信区间着手,而该区间上限应该为满足:
的最小的.
而其下限应该满足:
的最大的.
这里是参数为的超几何分布的累计分布函数:
而
有了区间之后,除以就可以得到比例的位置区间了.
R语言实例
这里有两种方法可以进行总体比例的区间估计,但好像都是针对大总体的,一个是binom.test方法,一种是binconf方法。前面一种方法是可以得到精确的置信区间,后一种方法可以得到精确和近似的置信区间。
话不多说,直接放代码:
> library(Hmisc)
> binom.test(50, 200, con = 0.95)$conf
[1] 0.1916072 0.3159628
attr(,"conf.level")
[1] 0.95
> binconf(50, 200, alpha = 0.05, method = "all")
PointEst Lower Upper
Exact 0.25 0.1916072 0.3159628
Wilson 0.25 0.1950817 0.3143410
Asymptotic 0.25 0.1899886 0.3100114
可以看到binom.test方法的输出结果和binconf方法中Exact得到结果是一样的,它们都可以得到精确的置信区间;而binconf的Asymptotic 得到的是大样本下正态近似的置信区间,Wilson是正态近似区间的改进。