文章目录1. 岭回归2. LASSO3. 主成分回归 - PCR4. 偏最小二乘回归 - PLS 压缩方法 & 降维方法 1. 岭回归法①:lm.ridge函数## lm.ridge函数进行岭回归
# 对样本数据进行标准化处理
data <- data.frame(scale(data0[,2:]))
# 对标准化处理后的数据(不含截距项)进行岭回归
library(MASS)
转载
2023-08-16 09:01:13
115阅读
参考数据挖掘与R语言 一、rpart包中,有建立回归树模型的指令:rpartrt<-rpart(formula, data)有关formula的一些注记~分隔,使响应变量在左边,解释变量在右边,例如y=x+y+w可表示为y~x+y+w+分别表示解释变量:表示交互式变量,例如y=x*z可表示为y~x:z*几个变量间的所有交互式表达式y=x+w+z+x * w+x * z+z * w+x * w
转载
2023-08-13 21:09:44
133阅读
Logistic回归# 设置工作空间
# 把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间
setwd("E:\\R_workspace\\R语言数据分析与挖掘实战\\chp5")
# 读入数据
Data <- read.csv("./data/bankloan.csv")[2:701, ]
View(Data)
# 查看数据框中 完整的记录数
sum(complete.c
转载
2023-06-26 17:38:24
543阅读
以及R软件实例。视频:Lasso回归、岭回归正则化回归数学原理及R软件实例为什么要LASSO套索回归?套索可以通过选择最小化预测误差的变量子集来帮助选择与结果相关的变量简约子集。选择模型取决于数据集和您正在处理的问题陈述。了解数据集以及特征如何相互交互至关重要。 当我们增加回归模型的自由度(增加方程中的多项式),预测变量可能高度相关,多重共线性可能会成为一个问题。这可能导致模型的系数估计
转载
2023-08-08 11:56:32
378阅读
上一篇主要是对线性回归进行简单的入门,本篇主要讲解另外一个模型~一.关于LARS算法LARS(Least Angle Regression)即最小角回归,作为Forward Stepwise(向前逐步回归)的升级版,LARS是每次先找出和因变量相关度最高的那个变量,在已经入选的变量中,寻找一个新的路径,使得在这个路径上前进时,当前残差与已入选变量的相关系数都是相同的,直到找出新的比当前残差相关系数
转载
2024-01-04 16:58:53
76阅读
INTRODUCTION我们以线性回归中的一些概念开始关于稳健回归的讨论。残差: 预测值(基于回归方程)与实际观察值之间的差。离群值: 在线性回归中,离群值是具有大量残差的观察值。换句话说,鉴于其对预测变量的价值,这是一个因变量不寻常的观察结果。离群值可能表示样本特性,或者可能表示数据输入错误或其他问题。杠杆: 对预测变量具有极高价值的观察点具有很高的杠杆作用。杠杆作用是对自变量偏离均值的程度的度
转载
2023-06-21 18:28:13
648阅读
LASSO回归的介绍LASSO回归是由统计学家Robert Tibshirani于1996年提出的一种回归分析方法。它通过在损失函数中加入L1正则化项,实现对模型参数的惩罚,使得一部分参数趋于零。这种稀疏性的特点使得LASSO回归在高维数据集中具有出色的性能。LASSO在医学中的应用:基因表达数据分析:LASSO回归可以用于选择最相关的基因。临床预测模型构建:选择对目标变量有重要影响的临床指标。生
转载
2024-06-06 11:42:55
99阅读
我们既往已经在文章《手把手教你使用R语言制作临床决策曲线》介绍了怎么使用rmda包制作了临床决策曲线,但是rmda包只能制作logistic回归模型的临床决策曲线,原来制作COX回归模型的stdca包R上下载不到。有粉丝留言向我推荐了ggDCA包,今天来演示一下怎么使用ggDCA包制作COX回归模型临床决策曲线。 ggDCA包由我们R语言大神,南方医科大学的博导Y叔制作,使用ggDCA包可以制作l
转载
2023-07-31 10:49:03
282阅读
这里向您展示如何在R中使用glmnet包进行岭回归(使用L2正则化的线性回归),并使用模拟来演示其相对于普通最小二乘回归的优势。岭回归当回归模型的参数被学习时,岭回归使用L2正则化来加权/惩罚残差。在线性回归的背景下,它可以与普通最小二乘法(OLS)进行比较。OLS定义了计算参数估计值(截距和斜率)的函数。它涉及最小化平方残差的总和。L2正则化是OLS函数的一个小增加,以特定的方式对残差进行加权以
转载
2024-08-28 22:13:00
89阅读
逻辑回归模型(Logistic Regression Model)建模逻辑回归模型是一种 基于线性回归模型 的分类模型,将回归(regression)模型数值化(numeric)的优势用在了分类(classification)上。借助glmnet包,以iris的前100位的两种花 setosa 和 versicolor 为例library(glmnet)
## 数据处理
data <- i
转载
2023-08-17 09:42:32
137阅读
泊松建模标准化发病率或死亡率(SIR/SMR),即计算标准化率的间接方法。 SIR 是观察到的和预期的案例的比率。 预期病例数是通过将特定阶层的人口率乘以队列中相应的人年得出的。 我们继续使用我们的女性直肠癌数据 首先我们导入R包和数据library(popEpi)
library(Epi)
library(splines)
bc<-read.csv("E:/r/test/smr
转载
2023-10-11 09:11:12
158阅读
一、数据探索阶段
1、了解变量类型
做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。
r代码:
> class(mydata$Middle_Price)
[1] "numeric"
> class(mydata$MPG.city.)
[1] "factor"
另外我
转载
2023-07-07 22:16:40
289阅读
回归分析数据准备数据基本信息建立回归模型建立回归方程预测数值回归方程可视化散点图加拟合回归方程诊断完整代码 回归分析它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。【该分析完整代码附于文章末】 数据准备首先加
转载
2023-09-15 18:43:58
211阅读
目录一、前言二、变量的关系三、回归与随机扰动项四、线性回归的假设前提五、线性回归的解法:1.最小二乘法估计:求最小残差2.最大似然估计:求最大的随机观测概率 六、事后检验1.拟合优度检验:2.变量显著性检验3.参数区间估计:一、前言我们在讲过ANOVA,MANOVA,今天来说一下线性回归,本篇只做理论,R语言代码会在下一篇讲解。一元线性回归在统计学,计量经济学和机器学习中很常见,我们今天
转载
2023-06-21 19:25:52
102阅读
一、回归算法1.1 一元线性回归 最小二乘法:通过使因变量的真实值和估计值之间的离差平方和达到最小来求 β0 和 β1 1.2 多元回归(今天先略过) 通过矩阵来求解最小二乘法 二、回归算法相关函数使用 R 自带的 women 数据集一元线性回归# 模型创建
fit1 = lm(weight~.,data=women) #
转载
2023-07-24 18:45:20
201阅读
按语:当数据含有离群点(Outliar)或者强影响点(influential observation)时,稳健回归(Robust Regression)会比普通最小二乘法(OLS)的表现要更优异。稳健回归也可以用来检测数据中的强影响点。 提示: 本文旨在介绍与稳健回归相关的R命令,因此,并未全面覆盖稳健回归的相关知识,也不涉及数据清洗、数据检测、模型假设和模型诊断
确定研究目的以及确定因变量和自变量研究目的:建立指数平滑模型,预测接下来的 14 天的数值。目录确定研究目的以及确定因变量和自变量数据预处理缺失值处理创建时间序列分割训练集和测试集简单指数平滑法构建模型霍特模型AAN(相加误差,相加趋势,无季节性)温斯特模型AAA(相加误差,相加趋势,有季节性)最终模型与预测数据预处理缺失值处理发现存在七个缺失值,用对应序列平均值填充,观察缺失值位置,发现数据出现
转载
2023-08-11 16:17:20
375阅读
简单逻辑回归模型可以先参考这篇文章学习下数据预览我们使用的是R自带包mtcars中的数据来举例,其中响应变量(y)是数据集中的"am"异常值检验首先来检查一下数据集的异常值(缺失、离群、重复),需要根据数据的具体情况确认是否去除,本例中不考虑重复值离群值 可以选择箱线图,mvoutlier包中的sing2等函数 在此我们选择箱线图演示,绘制数据集中预测变量(x)与am的关系,查看有无离群值:box
转载
2023-08-31 09:30:49
66阅读
R语言lasso理论解释代码输出代码 理论LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。 复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(overfitting) LASSO 回
转载
2023-07-30 14:52:39
710阅读
因为学校课程的需要不得不跳步整理,R语言其他部分只能等毕业有空再整理了。我发现代码这种东西,除了需要考试的时候看基础,其余情况都得“见风使舵”哈哈哈。气其实回归,就是变量与变量之间关系的量化。插入一个图片 如图,就是回归的各种方法,具体的应该在各种相关教科书里面有,这里不针对数学展开了。OLS使用情形OLS是通过预测变量(x)的加权和来预测量化的因变量(y)其实主要的情形就是“关系”“
转载
2023-07-21 18:33:12
97阅读