本文主要对回归分析解读,包括一元线性回归,多元线性回归和逻辑回归.

1 回归分析

“回归”最早由英国生物学家高尔顿在研究孩子身高与其父母身高关系时提出。研究发现,父母个子高,其子代一般也高,但不如父母那么高;父母个子矮,其子女一般也矮,但没有父母那么矮。下一代身高有向中间值回归的趋势,这种趋于中间值的趋势被称为“回归效应”,而他提出的这种研究两个数值变量关系的方法称为回归分析。
回归的意义:
  研究一个因变量对若干自变量的依存关系;实质是由自变量去估计因变量的均值。

2 一元线性回归模型

2.1 数学模型

2.1.0 一般方程

lasso回归分析交叉验证曲线 交叉回归模型_方差
其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_回归分析_02

自变量,解释变量

lasso回归分析交叉验证曲线 交叉回归模型_方差_03

因变量,被解释变量

lasso回归分析交叉验证曲线 交叉回归模型_方差_04

回归系数

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_05

为影响lasso回归分析交叉验证曲线 交叉回归模型_方差_03的其他因素,是随机误差项

2.1.2 随机误差项假定

假定1:在lasso回归分析交叉验证曲线 交叉回归模型_方差_07一定的情况下,lasso回归分析交叉验证曲线 交叉回归模型_方差_08的平均值为零,即lasso回归分析交叉验证曲线 交叉回归模型_回归分析_09.
假定2:每个lasso回归分析交叉验证曲线 交叉回归模型_方差_07对应的随机误差项lasso回归分析交叉验证曲线 交叉回归模型_方差_08具有相同的常数方差,称为同方差性,lasso回归分析交叉验证曲线 交叉回归模型_方差_12.
假定3:lasso回归分析交叉验证曲线 交叉回归模型_方差_08服从正态分布,lasso回归分析交叉验证曲线 交叉回归模型_回归分析_14~lasso回归分析交叉验证曲线 交叉回归模型_回归分析_15.
假定4:任意两个lasso回归分析交叉验证曲线 交叉回归模型_方差_07lasso回归分析交叉验证曲线 交叉回归模型_线性回归_17对应的随机项lasso回归分析交叉验证曲线 交叉回归模型_方差_08lasso回归分析交叉验证曲线 交叉回归模型_方差_19之间是独立不相关的,即lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_20,称为无序列性或无自相关.
假定5:自变量lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_21是一组确定性变量,随机扰动项lasso回归分析交叉验证曲线 交叉回归模型_方差_08与自变量lasso回归分析交叉验证曲线 交叉回归模型_方差_07无关,即lasso回归分析交叉验证曲线 交叉回归模型_方差_24.

2.1.3 总体回归方程

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_25
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

2.1.4 样本回归方程及模型

样本回归方程
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_26
样本回归模型
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_27
其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_28

分别为lasso回归分析交叉验证曲线 交叉回归模型_方差_04的估计值

lasso回归分析交叉验证曲线 交叉回归模型_方差_30

残差项,也称拟合误差,是lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_05的估计值

2.2 最小二乘法

2.2.1 基本思路

对模型lasso回归分析交叉验证曲线 交叉回归模型_回归分析_32通过样本值求lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_33,lasso回归分析交叉验证曲线 交叉回归模型_回归分析_34的估计值lasso回归分析交叉验证曲线 交叉回归模型_回归分析_35,即求解样本回归方程:

lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_26

2.2.2 拟合准则

问题:如果不加限制,通过样本点lasso回归分析交叉验证曲线 交叉回归模型_线性回归_37可以拟合出多条直线.
解决方案:拟合参差lasso回归分析交叉验证曲线 交叉回归模型_回归分析_38最小,即lasso回归分析交叉验证曲线 交叉回归模型_方差_39,通过计算确定一元线性回归模型lasso回归分析交叉验证曲线 交叉回归模型_回归分析_32参数估计值lasso回归分析交叉验证曲线 交叉回归模型_回归分析_35.

2.2.3 推导过程

二元函数求极值.
lasso回归分析交叉验证曲线 交叉回归模型_回归分析_42.
分别对lasso回归分析交叉验证曲线 交叉回归模型_回归分析_35求偏导

lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_44
求解
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_45
解得
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_46
其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_方差_47lasso回归分析交叉验证曲线 交叉回归模型_线性回归_48

分别为lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_49的均值.

lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_50

平均平方值

3 多元线性回归模型

3.1 数学模型

3.1.0 一般方程

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_51
其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_52

自变量,解释变量

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_53

因变量,被解释变量

lasso回归分析交叉验证曲线 交叉回归模型_方差_54

常数项,如偏置

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_55

偏回归系数,如权重

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_56

为影响lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_53的其他因素,是随机误差项

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_58

为分类数量或属性数量

  • 写成矩阵形式:
    lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_59

将误差项lasso回归分析交叉验证曲线 交叉回归模型_回归分析_14与偏置项lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_33合并为一个参数,将矩阵写为:
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_62
其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_回归分析_63

列向量

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_64

列向量

自变量矩阵:
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_65
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_66为向量转置
则有:
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_67

3.1.2 假设条件

假设1:lasso回归分析交叉验证曲线 交叉回归模型_方差_68lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_69具有线性关系
假设2:各观测值lasso回归分析交叉验证曲线 交叉回归模型_回归分析_70相互独立
假设3:参差lasso回归分析交叉验证曲线 交叉回归模型_回归分析_14服从正态分布,即lasso回归分析交叉验证曲线 交叉回归模型_回归分析_14~lasso回归分析交叉验证曲线 交叉回归模型_回归分析_15.

3.1.3 总体回归方程

lasso回归分析交叉验证曲线 交叉回归模型_回归分析_74
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.

3.1.4 样本回归方程及模型

  • 样本回归方程
    lasso回归分析交叉验证曲线 交叉回归模型_回归分析_75
  • 样本回归模型
    lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_76
    即:
    lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_77
    其中,

变量

注释

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_78

分别为lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_79的估计值

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_80

残差项,也称拟合误差,是lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_56的估计值

  • 矩阵形式
    lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_82
    其中,lasso回归分析交叉验证曲线 交叉回归模型_回归分析_83.

3.2 建立回归方程

3.2.1 原理及原则

同2.2.1及2.2.2.

3.2.2 推导过程

【二元函数求极值】

lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_84.
分别对lasso回归分析交叉验证曲线 交叉回归模型_回归分析_85求偏导
lasso回归分析交叉验证曲线 交叉回归模型_方差_86
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_87是满秩矩阵,其逆存在,解得lasso回归分析交叉验证曲线 交叉回归模型_回归分析_88
其中,
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_89lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_21的转置矩阵.
以上,完成多元线性回归分析.

3.2.3 矩阵形式推导

  • 平方误差
    lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_91
  • 参数说明

矩阵

维度

Y

n×1

X

n×(d+1)

lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_92

(d+1)×1

lasso回归分析交叉验证曲线 交叉回归模型_方差_93

1×n

lasso回归分析交叉验证曲线 交叉回归模型_方差_94

n×1

F

1×1

  • 极小值求解
    lasso回归分析交叉验证曲线 交叉回归模型_线性回归_95
    lasso回归分析交叉验证曲线 交叉回归模型_线性回归_96,则有
    lasso回归分析交叉验证曲线 交叉回归模型_线性回归_97
    lasso回归分析交叉验证曲线 交叉回归模型_回归分析_98满秩或正定时,有
    lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_99

4 逻辑回归

逻辑回归(logistic Regression):研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的多变量分析方法,机器学习中的sigmoid,属于概率型非线性回归模型,但是,其计算方法是以线性回归为基础的,本质是线性回归,因为他只能发现变量间的线性关系.

4.1 逻辑回归模型

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_100

lasso回归分析交叉验证曲线 交叉回归模型_回归分析_101


图4.1 示意图

4.2 逻辑回归分析分类

按数据类型
  • 非条件逻辑回归分析(成组数据)
  • 条件逻辑回归分析(配对-对照数据)
按因变量个数
  • 二分类逻辑回归分析
  • 多分类逻辑回归分析

4.3 二分类逻辑回归分析

设因变量lasso回归分析交叉验证曲线 交叉回归模型_方差_68是一个二分类变量,取值为0或1.影响lasso回归分析交叉验证曲线 交叉回归模型_方差_68取值的lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_104个自变量分别为lasso回归分析交叉验证曲线 交叉回归模型_方差_105.在lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_104个自变量(暴露因素)作用下lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_107发生的概率为
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_108
logistic回归模型为
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_109
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_110发生的概率为
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_111

logit变换(分对数变换)后,logistic回归模型为
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_112
回归系数lasso回归分析交叉验证曲线 交叉回归模型_方差_113的意义
当各种暴露因素为0时,
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_112lasso回归分析交叉验证曲线 交叉回归模型_回归分析_115lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_116
流行病学常用指标优势比(odds ratio,OR)或比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比,即lasso回归分析交叉验证曲线 交叉回归模型_方差_07的优势比为
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_118
lasso回归分析交叉验证曲线 交叉回归模型_方差_119lasso回归分析交叉验证曲线 交叉回归模型_回归分析_120lasso回归分析交叉验证曲线 交叉回归模型_方差_121lasso回归分析交叉验证曲线 交叉回归模型_线性回归_122
lasso回归分析交叉验证曲线 交叉回归模型_方差_123时,lasso回归分析交叉验证曲线 交叉回归模型_线性回归_124,表示因素lasso回归分析交叉验证曲线 交叉回归模型_线性回归_17对疾病的发生不起作用;
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_126时,lasso回归分析交叉验证曲线 交叉回归模型_方差_127,表示因素lasso回归分析交叉验证曲线 交叉回归模型_线性回归_17是一个危险因素;
lasso回归分析交叉验证曲线 交叉回归模型_方差_123时,lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_130,表示因素lasso回归分析交叉验证曲线 交叉回归模型_线性回归_17是一个保护因素;
由于lasso回归分析交叉验证曲线 交叉回归模型_线性回归_132值与模型中的常数项lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_33无关,因此lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_33在危险因素分析中常被视为无效参数.

4.4 logistic回归模型

【数据】
训练数据集:lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_135
数据分类:lasso回归分析交叉验证曲线 交叉回归模型_回归分析_136
构建逻辑回归模型:lasso回归分析交叉验证曲线 交叉回归模型_方差_137
【对于二分类】
lasso回归分析交叉验证曲线 交叉回归模型_方差_138
为方便表示,约定如下:
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_139
则有:
lasso回归分析交叉验证曲线 交叉回归模型_回归分析_140
其中lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_141.

4.5 logistic回归模型参数估计:最大似然估计

logistic回归模型参数估计采用最大似然估计,建立似然函数与对数似然函数,求使对数似然函数最大时的最大值,其估计值即为最大似然估计值.
建立样本似然函数
lasso回归分析交叉验证曲线 交叉回归模型_回归分析_142
其中,
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_143表示第lasso回归分析交叉验证曲线 交叉回归模型_回归分析_144个观察对象处于暴露条件下lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_107时发生的概率.
根据最大似然原理,似然函数lasso回归分析交叉验证曲线 交叉回归模型_方差_146应取最大值,对数似然函数为
lasso回归分析交叉验证曲线 交叉回归模型_回归分析_147
其中,
对参数lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_148,令lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_149的一阶导数为零,即lasso回归分析交叉验证曲线 交叉回归模型_线性回归_150,利用Newton-Raphson迭代方法接方程组,求得lasso回归分析交叉验证曲线 交叉回归模型_方差_113的估计值lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_152lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_152的渐进标准误差lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_154.

4.6 梯度下降

【目标函数】lasso回归分析交叉验证曲线 交叉回归模型_线性回归_155
【导数(梯度)】
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_156
迭代公式:
lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_157
其中:
lasso回归分析交叉验证曲线 交叉回归模型_回归分析_158

5 交叉熵

5.1 交叉熵函数

交叉熵函数即待优化的目标函数,来自最大似然估计,计算估计值与真实值的偏差,检验并选择最优结果.
lasso回归分析交叉验证曲线 交叉回归模型_线性回归_159

5.2 梯度

梯度用于优化迭代时使用.
对参数lasso回归分析交叉验证曲线 交叉回归模型_方差_113求导,获取导数(梯度):
lasso回归分析交叉验证曲线 交叉回归模型_逻辑回归_161

5.3 信息熵

lasso回归分析交叉验证曲线 交叉回归模型_线性回归_162
其中lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_163,按照分类取值,如样本分为三类,则lasso回归分析交叉验证曲线 交叉回归模型_lasso回归分析交叉验证曲线_164可能取值[1, 0, 0],[0.4, 0.2, 0.4].

6 总结

(1) 回归:研究变量间的关系,即自变量估计因变量;
(2) 回归分为线性回归和非线性回归,其中,线性回归的目标函数(优化函数)使用均方差构建;非线性回归的目标函数(优化函数)使用概率模型最大似然估计构建;逻辑回归理论上也是线性回归,只能发现变量间的线性关系;
(3) 交叉熵为非线性回归,使用最大似然估计构建目标函数;
(4) 优化目标函数分为传统优化和现代优化,传统优化的特点是预先设置误差点,满足误差,即停止迭代;现代优化,属于模糊优化,不设置误差范围,只设定迭代轮数,迭代结束评价模型:构建回归模型lasso回归分析交叉验证曲线 交叉回归模型_回归分析_165构造目标函数lasso回归分析交叉验证曲线 交叉回归模型_回归分析_165设置误差范围lasso回归分析交叉验证曲线 交叉回归模型_回归分析_165选择优化算法lasso回归分析交叉验证曲线 交叉回归模型_回归分析_165迭代优化至满足误差要求;
(5) 交叉熵用于计算估计值(预测值)和实际值的偏离程度,选择最优的分类.
(6) 逻辑回归优缺点

优点

缺点

建议

输入变量可连续可离散

只能发现变量间的线性关系

提前去除无关变量

模型简单直观,容易解释

输入变量间应相互独立

去除相关性较高的变量

不容易产生过拟合

/

离散化变量

(7) 正因为sigmoid(逻辑回归)只能发现变量间的线性关系,所以激活函数很少用,一般用Relu.


【参考文献】
[2]https://wenku.baidu.com/view/771515f7f705cc17552709c9.html