R语言插补精度衡量 r语言缺失值插补

转载

jacksky 2023-06-21 14:26:49

R语言插补精度衡量 r语言缺失值插补_R语言插补精度衡量

如果异常值需要填补，则可把异常值当做缺失值一块填补。

R语言插补精度衡量 r语言缺失值插补_数据_02

# 设置工作空间
# 把“数据及程序”文件夹拷贝到F盘下，再用setwd设置工作空间 

setwd("E:/自己重要的文件/R语言个人分类总结/R语言数据分析与挖掘实战/图书配套数据、代码/chapter4/示例程序") 

# 读取销售数据文件，提取标题行 

inputfile <- read.csv('./data/catering_sale.csv', header = TRUE)  



# 变换变量名，

不构造成数据框，后边不能画点图等。

inputfile <- data.frame(sales = inputfile$'销量', date = inputfile$'日期') 



# 数据截取 

inputfile <- inputfile[5:16, ] 



# 缺失数据的识别 

is.na(inputfile)  # 判断是否存在缺失 

n <- sum(is.na(inputfile))  # 输出缺失值个数 



# 异常值识别 

par(mfrow = c(1, 2))  # 将绘图窗口划为1行两列，同时显示两图 

dotchart(inputfile$sales)  # 绘制单变量散点图 

boxplot(inputfile$sales, horizontal = TRUE)  # 绘制水平箱形图

R语言插补精度衡量 r语言缺失值插补_缺失值_03

散点图，从下往上数，第5个值异常。

# 异常数据处理 

inputfile$sales[5] = NA  # 将异常值处理成缺失值 

fix(inputfile)  # 表格形式呈现数据 



# 缺失值的处理 

inputfile$date <- as.numeric(inputfile$date)  # 将日期转换成数值型变量， 
为了下边的回归插补法。 

sub <- which(is.na(inputfile$sales))  # 识别缺失值所在行数 

inputfile1 <- inputfile[-sub, ]  # 将数据集分成完整数据和缺失数据两部分 

inputfile2 <- inputfile[sub, ]

R语言插补精度衡量 r语言缺失值插补_R语言插补精度衡量_04

# 行删除法处理缺失，结果转存 

result1 <- inputfile1 



# 均值替换法处理缺失，结果转存 

avg_sales <- mean(inputfile1$sales)  # 求变量未缺失部分的均值 

inputfile2$sales <- rep(avg_sales,n)  # 用均值替换缺失， 
替换所有的缺失值。 

result2 <- rbind(inputfile1, inputfile2)  # 并入完成插补的数据

R语言插补精度衡量 r语言缺失值插补_缺失值_05

# 回归插补法处理缺失，结果转存 

model <- lm(sales ~ date, data = inputfile1)  # 回归模型拟合 

inputfile2$sales <- predict(model, inputfile2)  # 模型预测 

result3 <- rbind(inputfile1, inputfile2) 



# 多重插补法处理缺失，结果转存

大致的步骤简介如下：

缺失数据集——MCMC估计插补成几个数据集——每个数据集进行插补建模（glm、lm模型）——将这些模型整合到一起（pool）——评价插补模型优劣（模型系数的t统计量）——输出完整数据集（complete）

步骤详细介绍：

函数mice()首先从一个包含缺失数据的数据框开始，然后返回一个包含多个（默认为5个）完整数据集的对象。

每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分，因此每个完整数据集都略有不同。

然后， with()函数可依次对每个完整数据集应用统计模型（如线性模型或广义线性模型），

最后， pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。

install.packages("mice")
library(lattice)  # 调入函数包 

library(MASS) 

library(nnet) 

library(mice)  # 前三个包是mice的基础
md.pattern(inputfile)#查看哪些是缺失值
imp <- mice(inputfile, m = 4)  # 4重插补，即生成4个无缺失数据集
imp$imp$sales
fit <- with(imp,lm(sales ~ date, data = inputfile))  # 选择插补模型 

pooled <- pool(fit) 

summary(pooled) 

result4 <- complete(imp, action = 3)  # 选择第三个插补数据集作为结果

R语言插补精度衡量 r语言缺失值插补_R语言插补精度衡量_06