lasso回归分析交叉验证曲线交叉回归模型

转载

mob6454cc6b413f 2024-04-01 06:17:23

文章标签 lasso回归分析交叉验证曲线回归分析逻辑回归线性回归方差 文章分类 机器学习人工智能

本文主要对回归分析解读,包括一元线性回归,多元线性回归和逻辑回归.

1 回归分析

“回归”最早由英国生物学家高尔顿在研究孩子身高与其父母身高关系时提出。研究发现，父母个子高，其子代一般也高，但不如父母那么高；父母个子矮，其子女一般也矮，但没有父母那么矮。下一代身高有向中间值回归的趋势，这种趋于中间值的趋势被称为“回归效应”，而他提出的这种研究两个数值变量关系的方法称为回归分析。
回归的意义：
　　研究一个因变量对若干自变量的依存关系；实质是由自变量去估计因变量的均值。

2 一元线性回归模型

2.1 数学模型

2.1.0 一般方程

$lasso回归分析交叉验证曲线交叉回归模型_方差$
其中,

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_02$	自变量,解释变量
$lasso回归分析交叉验证曲线交叉回归模型_方差_03$	因变量,被解释变量
$lasso回归分析交叉验证曲线交叉回归模型_方差_04$	回归系数
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_05$	为影响 $lasso回归分析交叉验证曲线交叉回归模型_方差_03$ 的其他因素,是随机误差项

2.1.2 随机误差项假定

假定1:在 $lasso回归分析交叉验证曲线交叉回归模型_方差_07$ 一定的情况下, $lasso回归分析交叉验证曲线交叉回归模型_方差_08$ 的平均值为零,即 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_09$ .
假定2:每个 $lasso回归分析交叉验证曲线交叉回归模型_方差_07$ 对应的随机误差项 $lasso回归分析交叉验证曲线交叉回归模型_方差_08$ 具有相同的常数方差,称为同方差性, $lasso回归分析交叉验证曲线交叉回归模型_方差_12$ .
假定3: $lasso回归分析交叉验证曲线交叉回归模型_方差_08$ 服从正态分布, $lasso回归分析交叉验证曲线交叉回归模型_回归分析_14$ ~ $lasso回归分析交叉验证曲线交叉回归模型_回归分析_15$ .
假定4:任意两个 $lasso回归分析交叉验证曲线交叉回归模型_方差_07$ 与 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_17$ 对应的随机项 $lasso回归分析交叉验证曲线交叉回归模型_方差_08$ 与 $lasso回归分析交叉验证曲线交叉回归模型_方差_19$ 之间是独立不相关的,即 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_20$ ,称为无序列性或无自相关.
假定5:自变量 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_21$ 是一组确定性变量,随机扰动项 $lasso回归分析交叉验证曲线交叉回归模型_方差_08$ 与自变量 $lasso回归分析交叉验证曲线交叉回归模型_方差_07$ 无关,即 $lasso回归分析交叉验证曲线交叉回归模型_方差_24$ .

2.1.3 总体回归方程

$lasso回归分析交叉验证曲线交叉回归模型_线性回归_25$
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

2.1.4 样本回归方程及模型

样本回归方程
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_26$
样本回归模型
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_27$
其中,

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_28$	分别为 $lasso回归分析交叉验证曲线交叉回归模型_方差_04$ 的估计值
$lasso回归分析交叉验证曲线交叉回归模型_方差_30$	残差项,也称拟合误差,是 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_05$ 的估计值

2.2 最小二乘法

2.2.1 基本思路

对模型 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_32$ 通过样本值求 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_33$ , $lasso回归分析交叉验证曲线交叉回归模型_回归分析_34$ 的估计值 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_35$ ,即求解样本回归方程:

$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_26$

2.2.2 拟合准则

问题:如果不加限制,通过样本点 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_37$ 可以拟合出多条直线.
解决方案:拟合参差 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_38$ 最小,即 $lasso回归分析交叉验证曲线交叉回归模型_方差_39$ ,通过计算确定一元线性回归模型 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_32$ 参数估计值 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_35$ .

2.2.3 推导过程

二元函数求极值.
令 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_42$ .
分别对 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_35$ 求偏导

$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_44$
求解
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_45$
解得
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_46$
其中,

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_方差_47$ $lasso回归分析交叉验证曲线交叉回归模型_线性回归_48$	分别为 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_49$ 的均值.
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_50$	平均平方值

3 多元线性回归模型

3.1 数学模型

3.1.0 一般方程

$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_51$
其中,

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_52$	自变量,解释变量
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_53$	因变量,被解释变量
$lasso回归分析交叉验证曲线交叉回归模型_方差_54$	常数项，如偏置
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_55$	偏回归系数，如权重
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_56$	为影响 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_53$ 的其他因素,是随机误差项
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_58$	为分类数量或属性数量

写成矩阵形式：
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_59$

将误差项 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_14$ 与偏置项 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_33$ 合并为一个参数，将矩阵写为：
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_62$
其中，

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_63$	列向量
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_64$	列向量

自变量矩阵：
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_65$
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_66$ 为向量转置
则有：
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_67$

3.1.2 假设条件

假设1: $lasso回归分析交叉验证曲线交叉回归模型_方差_68$ 与 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_69$ 具有线性关系
假设2:各观测值 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_70$ 相互独立
假设3:参差 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_14$ 服从正态分布,即 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_14$ ~ $lasso回归分析交叉验证曲线交叉回归模型_回归分析_15$ .

3.1.3 总体回归方程

$lasso回归分析交叉验证曲线交叉回归模型_回归分析_74$
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

3.1.4 样本回归方程及模型

样本回归方程
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_75$
样本回归模型
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_76$
即：
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_77$
其中,

变量	注释
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_78$	分别为 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_79$ 的估计值
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_80$	残差项,也称拟合误差,是 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_56$ 的估计值

矩阵形式
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_82$
其中， $lasso回归分析交叉验证曲线交叉回归模型_回归分析_83$ .

3.2 建立回归方程

3.2.1 原理及原则

同2.2.1及2.2.2.

3.2.2 推导过程

【二元函数求极值】
令
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_84$ .
分别对 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_85$ 求偏导
$lasso回归分析交叉验证曲线交叉回归模型_方差_86$
若 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_87$ 是满秩矩阵,其逆存在,解得 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_88$
其中,
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_89$ 是 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_21$ 的转置矩阵.
以上,完成多元线性回归分析.

3.2.3 矩阵形式推导

平方误差
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_91$
参数说明

矩阵	维度
Y	n×1
X	n×(d+1)
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_92$	(d+1)×1
$lasso回归分析交叉验证曲线交叉回归模型_方差_93$	1×n
$lasso回归分析交叉验证曲线交叉回归模型_方差_94$	n×1
F	1×1

极小值求解
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_95$
令 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_96$ ，则有
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_97$
当 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_98$ 满秩或正定时，有
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_99$

4 逻辑回归

逻辑回归(logistic Regression):研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的多变量分析方法,机器学习中的sigmoid,属于概率型非线性回归模型,但是,其计算方法是以线性回归为基础的,本质是线性回归,因为他只能发现变量间的线性关系.

4.1 逻辑回归模型

$lasso回归分析交叉验证曲线交叉回归模型_线性回归_100$

lasso回归分析交叉验证曲线交叉回归模型_回归分析_101

图4.1 示意图

4.2 逻辑回归分析分类

按数据类型

非条件逻辑回归分析(成组数据)
条件逻辑回归分析(配对-对照数据)

按因变量个数

二分类逻辑回归分析
多分类逻辑回归分析

4.3 二分类逻辑回归分析

设因变量 $lasso回归分析交叉验证曲线交叉回归模型_方差_68$ 是一个二分类变量,取值为0或1.影响 $lasso回归分析交叉验证曲线交叉回归模型_方差_68$ 取值的 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_104$ 个自变量分别为 $lasso回归分析交叉验证曲线交叉回归模型_方差_105$ .在 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_104$ 个自变量(暴露因素)作用下 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_107$ 发生的概率为
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_108$
logistic回归模型为
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_109$
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_110$ 发生的概率为
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_111$

logit变换(分对数变换)后,logistic回归模型为
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_112$
回归系数 $lasso回归分析交叉验证曲线交叉回归模型_方差_113$ 的意义
当各种暴露因素为0时,
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_112$ $lasso回归分析交叉验证曲线交叉回归模型_回归分析_115$ $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_116$
流行病学常用指标优势比(odds ratio,OR)或比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比,即 $lasso回归分析交叉验证曲线交叉回归模型_方差_07$ 的优势比为
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_118$
$lasso回归分析交叉验证曲线交叉回归模型_方差_119$ $lasso回归分析交叉验证曲线交叉回归模型_回归分析_120$ $lasso回归分析交叉验证曲线交叉回归模型_方差_121$ $lasso回归分析交叉验证曲线交叉回归模型_线性回归_122$
当 $lasso回归分析交叉验证曲线交叉回归模型_方差_123$ 时, $lasso回归分析交叉验证曲线交叉回归模型_线性回归_124$ ,表示因素 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_17$ 对疾病的发生不起作用;
当 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_126$ 时, $lasso回归分析交叉验证曲线交叉回归模型_方差_127$ ,表示因素 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_17$ 是一个危险因素;
当 $lasso回归分析交叉验证曲线交叉回归模型_方差_123$ 时, $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_130$ ,表示因素 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_17$ 是一个保护因素;
由于 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_132$ 值与模型中的常数项 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_33$ 无关,因此 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_33$ 在危险因素分析中常被视为无效参数.

4.4 logistic回归模型

【数据】
训练数据集: $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_135$
数据分类: $lasso回归分析交叉验证曲线交叉回归模型_回归分析_136$
构建逻辑回归模型: $lasso回归分析交叉验证曲线交叉回归模型_方差_137$
【对于二分类】
$lasso回归分析交叉验证曲线交叉回归模型_方差_138$
为方便表示,约定如下:
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_139$
则有:
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_140$
其中 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_141$ .

4.5 logistic回归模型参数估计:最大似然估计

logistic回归模型参数估计采用最大似然估计,建立似然函数与对数似然函数,求使对数似然函数最大时的最大值,其估计值即为最大似然估计值.
建立样本似然函数
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_142$
其中,
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_143$ 表示第 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_144$ 个观察对象处于暴露条件下 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_107$ 时发生的概率.
根据最大似然原理,似然函数 $lasso回归分析交叉验证曲线交叉回归模型_方差_146$ 应取最大值,对数似然函数为
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_147$
其中,
对参数 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_148$ ,令 $lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_149$ 的一阶导数为零,即 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_150$ ,利用Newton-Raphson迭代方法接方程组,求得 $lasso回归分析交叉验证曲线交叉回归模型_方差_113$ 的估计值 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_152$ 和 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_152$ 的渐进标准误差 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_154$ .

4.6 梯度下降

【目标函数】 $lasso回归分析交叉验证曲线交叉回归模型_线性回归_155$
【导数(梯度)】
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_156$
迭代公式:
$lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_157$
其中:
$lasso回归分析交叉验证曲线交叉回归模型_回归分析_158$

5 交叉熵

5.1 交叉熵函数

交叉熵函数即待优化的目标函数,来自最大似然估计,计算估计值与真实值的偏差,检验并选择最优结果.
$lasso回归分析交叉验证曲线交叉回归模型_线性回归_159$

5.2 梯度

梯度用于优化迭代时使用.
对参数 $lasso回归分析交叉验证曲线交叉回归模型_方差_113$ 求导,获取导数(梯度):
$lasso回归分析交叉验证曲线交叉回归模型_逻辑回归_161$

5.3 信息熵

$lasso回归分析交叉验证曲线交叉回归模型_线性回归_162$
其中 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_163$ ,按照分类取值,如样本分为三类,则 $lasso回归分析交叉验证曲线交叉回归模型_lasso回归分析交叉验证曲线_164$ 可能取值[1, 0, 0],[0.4, 0.2, 0.4].

6 总结

(1) 回归:研究变量间的关系,即自变量估计因变量;
(2) 回归分为线性回归和非线性回归,其中,线性回归的目标函数(优化函数)使用均方差构建;非线性回归的目标函数(优化函数)使用概率模型最大似然估计构建;逻辑回归理论上也是线性回归,只能发现变量间的线性关系;
(3) 交叉熵为非线性回归,使用最大似然估计构建目标函数;
(4) 优化目标函数分为传统优化和现代优化,传统优化的特点是预先设置误差点,满足误差,即停止迭代;现代优化,属于模糊优化,不设置误差范围,只设定迭代轮数,迭代结束评价模型:构建回归模型 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_165$ 构造目标函数 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_165$ 设置误差范围 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_165$ 选择优化算法 $lasso回归分析交叉验证曲线交叉回归模型_回归分析_165$ 迭代优化至满足误差要求;
(5) 交叉熵用于计算估计值(预测值)和实际值的偏离程度,选择最优的分类.
(6) 逻辑回归优缺点

优点	缺点	建议
输入变量可连续可离散	只能发现变量间的线性关系	提前去除无关变量
模型简单直观,容易解释	输入变量间应相互独立	去除相关性较高的变量
不容易产生过拟合	/	离散化变量

(7) 正因为sigmoid(逻辑回归)只能发现变量间的线性关系,所以激活函数很少用,一般用Relu.

【参考文献】
[2]https://wenku.baidu.com/view/771515f7f705cc17552709c9.html

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：chatgpt怎么和他对骂 chat怎么样

下一篇：远程桌面连接centos7 远程桌面连接密码查看

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯