PPS抽样 python PPS抽样调查法

转载

mob6454cc76dff7 2023-08-18 18:31:53

文章标签 PPS抽样 python 概率论机器学习数据挖掘标准差 文章分类 Python 后端开发

放回不等概率抽样-PPS抽样

一、数据描述
二、整群抽样

1. 抽样

（1）调用inclusionprobabilities函数定义每个总体单元的入样概率，第一个参数定义规模变量，第二个参数定义样本容量
（2）调用PPS抽样函数“UPmultinomial”,其参数为总体单元的入样概率变量。所得抽样结果s表示总体单元被抽中的次数。
（3）提取抽到的样本数据

2. 估计

（1）目标变量“acres92”的总值估计
（2）目标变量“acres92”的总值估计的标准差估计
（3）目标变量“acres92”的均值估计
（4）目标变量“acres92”均值估计的标准差估计

一、数据描述

agpop数据文件介绍：美国政府每五年做一次有关农业的普查，收集50个州的所有农场的有关数据。数据文件中共有3041个美国县级农场或与县级农场相当的农场数据。共有4个区域（region/rnum），50个州（state/snum）,以及3041个县（county/cnum）。
我们用到的变量有:
县（county/cnum）, 州（state/snum）, 区域（region/rnum）,
1992年每个县的耕地面积（acres92）, 1987年每个县的耕地面积（acres87）,
1992年每个县拥有的农场个数（farms92）。
目标变量为1992年的耕地面积（acres92）。

二、整群抽样

1. 抽样

抽样要求：以“farms92”为规模变量，采用PPS抽样（放回）抽取容量为300的样本。

（1）调用inclusionprobabilities函数定义每个总体单元的入样概率，第一个参数定义规模变量，第二个参数定义样本容量

# 1.抽样
data=read.csv("抽样技术数据文件.csv",header=T,sep=",");
n=300; #样本容量
N=length(data$acres92)#总数
pik=inclusionprobabilities(data$farms92,n);pik #定义每个单元的入样概率

运行结果：【复制粘贴到此处】

> pik=inclusionprobabilities(data$farms92,n);pik # 定义每个单元的入样概率

   [1] 0.1461000085 0.0671185936 0.1367346233 0.1526557781 0.0393346177
   [6] 0.2019801399 0.0769522481 0.2211791795 0.1039557753 0.0597823753
  [11] 0.0265352580 0.0407394254 0.0839762869 0.0163894240 0.0600945548
  ......

结果解释：【对结果进行解释说明】
输出结果为每个数据的入样概率。

（2）调用PPS抽样函数“UPmultinomial”,其参数为总体单元的入样概率变量。所得抽样结果s表示总体单元被抽中的次数。

s=UPmultinomial(pik);s #调用PPS抽样函数

运行结果：【复制粘贴到此处】

> s=UPmultinomial(pik);s #调用PPS抽样函数
   [1] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 0 0 0 0
  [37] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0
  [73] 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0
 [109] 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
 ......

结果解释：【对结果进行解释说明】
输出结果为利用PPS抽样抽取的样本，“1”代表抽中的样本，“0”代表未抽中的样本。

（3）提取抽到的样本数据

data.pps=data[s!=0,];data.pps #提取抽到的样本数据

运行结果：【复制粘贴到此处】

> data.pps=data[s!=0,];data.pps #提取抽到的样本数据
                 county cnum state snum acres92 acres87 acres82 farms92 farms87 farms82 largef92 largef87 largef82 smallf92 smallf87 smallf82 region rnum
6          ADAIR COUNTY    6    IA   12  401858  417178  419586    1294    1404    1508       52       42       31      101      102       95     NC    1
22         AIKEN COUNTY   22    IN   15  164025  173795  173605     963    1071    1165       18       15       15       55       55       67     NC    1
28        ALBANY COUNTY   28    PA   38  167863  184586  199590    1165    1355    1475        7        4        6       96      102      121     NE    2
......

结果解释：【对结果进行解释说明】
输出结果为所抽取到的样本数据的具体表述。

2. 估计

估计的目标变量为acres92的均值和总值，及其相应的标准误差

（1）目标变量“acres92”的总值估计

# 2. 估计
# 估计的目标变量为acres92的均值和总值，及其相应的标准误差
Z=pik[s!=0]/n; #计算每次抽样中每个样本单元被抽中的概率Zi,等于其包含概率除以样本容量n
Q=s[s!=0]; # 每个单元被抽中的次数
YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计

运行结果：【复制粘贴到此处】

> YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计
[1] 844942110

结果解释：【对结果进行解释说明】
目标变量“acres92”的总值估计值为844942110。

（2）目标变量“acres92”的总值估计的标准差估计

vars=(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(vars);#目标变量“acres92”的总值估计的标准差估计

运行结果：【复制粘贴到此处】

> sqrt(vars);#目标变量“acres92”的总值估计的标准差估计
[1] 85799285

结果解释：【对结果进行解释说明】
目标变量“acres92”的总值估计的标准差估计值为85799285。

（3）目标变量“acres92”的均值估计

YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计

运行结果：【复制粘贴到此处】

> YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计
[1] 277850.1

结果解释：【对结果进行解释说明】
目标变量“acres92”的均值估计值为277850.1。

（4）目标变量“acres92”均值估计的标准差估计

varm=((1/N)^2)*(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(varm);#目标变量“acres92”均值估计的标准差估计

运行结果：【复制粘贴到此处】

> sqrt(varm);#目标变量“acres92”均值估计的标准差估计
[1] 28214.17

结果解释：【对结果进行解释说明】
目标变量“acres92”均值估计的标准差估计值为28214.17。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：服务器配置hadoop classpath 服务器配置raid

下一篇：跨站漏洞修复 java 跨站漏洞修复

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯