1 简单处理数据

dim(Insurance)    #获得数据集维度

 数据抽样与R实现、获取网页数据_数据抽样与R实现、获取网页数据

dim(Insurance)[1]     #获得数据集维度的第一个向量

 数据抽样与R实现、获取网页数据_数据抽样与R实现、获取网页数据_02

2 变量类型

通过levels()可以看到因子型数据的各水平值

levels(Insurance$Age)      #显示出年龄有四个等级

 数据抽样与R实现、获取网页数据_数据_03

levels(Insurance$Age)[1]<-"young"    #将Age变量的第一个水平修改为”young”

levels(Insurance$Age)

 数据抽样与R实现、获取网页数据_数据集_04

3 数据抽样与R实现

3.1 简单随机抽样

使用sample()函数进行简单随机抽样,函数格式如下:

 数据抽样与R实现、获取网页数据_xml_05

其中,x表示待抽取对象,size表示想要取样本的个数,replace为是否需要放回,prob用于抽取样本的抽样概率。

sub1<-sample(nrow(Insurance),10,replace = T) #从Insurance中抽取有放回的10个行序号

sub1

 数据抽样与R实现、获取网页数据_xml_06

sub2<-sample(nrow(Insurance),10,replace = T,prob=c(rep(0,nrow(Insurance)-1),1))

#设置除最后一条样本抽样概率为1之外,其余样本抽样概率为0

 sub2

 数据抽样与R实现、获取网页数据_数据_07

Insurance[sub2,]   #列出抽取的样本信息

 数据抽样与R实现、获取网页数据_xml_08

3.2 分层抽样

分层抽样使用strata()函数,格式为:

 数据抽样与R实现、获取网页数据_xml_09

其中data为待抽样的数据集,stratanames中放置进行分层所一句的变量名称,size用于放置各层中将要抽出的观测样本数量,method为选择用于分层抽样的方法,分别为无放回、有放回、泊松、系统抽样,默认情况下是无放回,pik用于各层中个样本抽样的概率,description参数用于是否输出含有各层基本信息的结果。

3.3 整群抽样

使用cluster()函数实线整群,格式为:

 数据抽样与R实现、获取网页数据_html_10

clustername是值用来划分的变量名称,size是一个正整数,表示需要抽取的群数。

4  获取网页数据

使用XML软件包中的readHTMLTablle()函数来读取网页数据。

以获取和讯忘中午你可A(000002)股票的相关金融数据为例,数据所在的网址为

​http://stockdata.stock.hexun.com/2008en/zxcwzb.aspx?stockid=000002&type=1&data=2021.09.02​

 数据抽样与R实现、获取网页数据_数据_11

页面包含有该股票相应年份的年度数据(Annual)和中期数据(Interim),以下使用函数readHTMLTablle()来获取本页面中所含的其全部数据。

library(XML)

u1<-"http://stockdata.stock.hexun.com/2008en/zxcwzb.aspx?stockid=000002&type=1&data=2021.09.02"

tables1<-readHTMLTable(u1)

names(tables1)    #查看该数据有几部分内容(4部分)

 数据抽样与R实现、获取网页数据_xml_12

tables1[[2]]    #输出第2部分的信息

 数据抽样与R实现、获取网页数据_html_13


作者:zhang-X​,转载请注明原文链接