数据抽样与R实现、获取网页数据

转载

mb5fe55c3c754d7 2021-09-08 16:30:00

文章标签 数据抽样与R实现、获取网页数据数据 html 数据集 xml 文章分类 代码人生

1 简单处理数据

dim(Insurance) #获得数据集维度

数据抽样与R实现、获取网页数据_数据抽样与R实现、获取网页数据

dim(Insurance)[1] #获得数据集维度的第一个向量

数据抽样与R实现、获取网页数据_数据抽样与R实现、获取网页数据_02

2 变量类型

通过levels()可以看到因子型数据的各水平值

levels(Insurance$Age) #显示出年龄有四个等级

数据抽样与R实现、获取网页数据_数据_03

levels(Insurance$Age)[1]<-"young" #将Age变量的第一个水平修改为”young”

levels(Insurance$Age)

数据抽样与R实现、获取网页数据_数据集_04

3 数据抽样与R实现

3.1 简单随机抽样

使用sample()函数进行简单随机抽样，函数格式如下：

数据抽样与R实现、获取网页数据_xml_05

其中，x表示待抽取对象，size表示想要取样本的个数，replace为是否需要放回，prob用于抽取样本的抽样概率。

sub1<-sample(nrow(Insurance),10,replace = T) #从Insurance中抽取有放回的10个行序号

sub1

数据抽样与R实现、获取网页数据_xml_06

sub2<-sample(nrow(Insurance),10,replace = T,prob=c(rep(0,nrow(Insurance)-1),1))

#设置除最后一条样本抽样概率为1之外，其余样本抽样概率为0

sub2

数据抽样与R实现、获取网页数据_数据_07

Insurance[sub2,] #列出抽取的样本信息

数据抽样与R实现、获取网页数据_xml_08

3.2 分层抽样

分层抽样使用strata()函数，格式为：

数据抽样与R实现、获取网页数据_xml_09

其中data为待抽样的数据集，stratanames中放置进行分层所一句的变量名称，size用于放置各层中将要抽出的观测样本数量，method为选择用于分层抽样的方法，分别为无放回、有放回、泊松、系统抽样，默认情况下是无放回，pik用于各层中个样本抽样的概率，description参数用于是否输出含有各层基本信息的结果。

3.3 整群抽样

使用cluster()函数实线整群，格式为：

数据抽样与R实现、获取网页数据_html_10