本文主要对回归分析解读,包括一元线性回归,多元线性回归和逻辑回归.
1 回归分析
“回归”最早由英国生物学家高尔顿在研究孩子身高与其父母身高关系时提出。研究发现,父母个子高,其子代一般也高,但不如父母那么高;父母个子矮,其子女一般也矮,但没有父母那么矮。下一代身高有向中间值回归的趋势,这种趋于中间值的趋势被称为“回归效应”,而他提出的这种研究两个数值变量关系的方法称为回归分析。
回归的意义:
研究一个因变量对若干自变量的依存关系;实质是由自变量去估计因变量的均值。
2 一元线性回归模型
2.1 数学模型
2.1.0 一般方程
其中,
变量 | 注释 |
自变量,解释变量 | |
因变量,被解释变量 | |
回归系数 | |
为影响的其他因素,是随机误差项 |
2.1.2 随机误差项假定
假定1:在一定的情况下,的平均值为零,即.
假定2:每个对应的随机误差项具有相同的常数方差,称为同方差性,.
假定3:服从正态分布,~.
假定4:任意两个与对应的随机项与之间是独立不相关的,即,称为无序列性或无自相关.
假定5:自变量是一组确定性变量,随机扰动项与自变量无关,即.
2.1.3 总体回归方程
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.
2.1.4 样本回归方程及模型
样本回归方程
样本回归模型
其中,
变量 | 注释 |
分别为的估计值 | |
残差项,也称拟合误差,是的估计值 |
2.2 最小二乘法
2.2.1 基本思路
对模型通过样本值求,的估计值,即求解样本回归方程:
2.2.2 拟合准则
问题:如果不加限制,通过样本点可以拟合出多条直线.
解决方案:拟合参差最小,即,通过计算确定一元线性回归模型参数估计值.
2.2.3 推导过程
二元函数求极值.
令.
分别对求偏导
求解
解得
其中,
变量 | 注释 |
分别为的均值. | |
平均平方值 |
3 多元线性回归模型
3.1 数学模型
3.1.0 一般方程
其中,
变量 | 注释 |
自变量,解释变量 | |
因变量,被解释变量 | |
常数项,如偏置 | |
偏回归系数,如权重 | |
为影响的其他因素,是随机误差项 | |
为分类数量或属性数量 |
- 写成矩阵形式:
将误差项与偏置项合并为一个参数,将矩阵写为:
其中,
变量 | 注释 |
列向量 | |
列向量 |
自变量矩阵:
为向量转置
则有:
3.1.2 假设条件
假设1:与具有线性关系
假设2:各观测值相互独立
假设3:参差服从正态分布,即~.
3.1.3 总体回归方程
每个Y值与X在一条直线附近波动,考虑所有Y的取值,其均值E(Y)与X在一条直线上.
3.1.4 样本回归方程及模型
- 样本回归方程
- 样本回归模型
即:
其中,
变量 | 注释 |
分别为的估计值 | |
残差项,也称拟合误差,是的估计值 |
- 矩阵形式
其中,.
3.2 建立回归方程
3.2.1 原理及原则
同2.2.1及2.2.2.
3.2.2 推导过程
【二元函数求极值】
令
.
分别对求偏导
若是满秩矩阵,其逆存在,解得
其中,
是的转置矩阵.
以上,完成多元线性回归分析.
3.2.3 矩阵形式推导
- 平方误差
- 参数说明
矩阵 | 维度 |
Y | n×1 |
X | n×(d+1) |
(d+1)×1 | |
1×n | |
n×1 | |
F | 1×1 |
- 极小值求解
令,则有
当满秩或正定时,有
4 逻辑回归
逻辑回归(logistic Regression):研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的多变量分析方法,机器学习中的sigmoid,属于概率型非线性回归模型,但是,其计算方法是以线性回归为基础的,本质是线性回归,因为他只能发现变量间的线性关系.
4.1 逻辑回归模型
图4.1 示意图
4.2 逻辑回归分析分类
按数据类型
- 非条件逻辑回归分析(成组数据)
- 条件逻辑回归分析(配对-对照数据)
按因变量个数
- 二分类逻辑回归分析
- 多分类逻辑回归分析
4.3 二分类逻辑回归分析
设因变量是一个二分类变量,取值为0或1.影响取值的个自变量分别为.在个自变量(暴露因素)作用下发生的概率为
logistic回归模型为
发生的概率为
logit变换(分对数变换)后,logistic回归模型为
回归系数的意义
当各种暴露因素为0时,
流行病学常用指标优势比(odds ratio,OR)或比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比,即的优势比为
当时,,表示因素对疾病的发生不起作用;
当时,,表示因素是一个危险因素;
当时,,表示因素是一个保护因素;
由于值与模型中的常数项无关,因此在危险因素分析中常被视为无效参数.
4.4 logistic回归模型
【数据】
训练数据集:
数据分类:
构建逻辑回归模型:
【对于二分类】
为方便表示,约定如下:
则有:
其中.
4.5 logistic回归模型参数估计:最大似然估计
logistic回归模型参数估计采用最大似然估计,建立似然函数与对数似然函数,求使对数似然函数最大时的最大值,其估计值即为最大似然估计值.
建立样本似然函数
其中,
表示第个观察对象处于暴露条件下时发生的概率.
根据最大似然原理,似然函数应取最大值,对数似然函数为
其中,
对参数,令的一阶导数为零,即,利用Newton-Raphson迭代方法接方程组,求得的估计值和的渐进标准误差.
4.6 梯度下降
【目标函数】
【导数(梯度)】
迭代公式:
其中:
5 交叉熵
5.1 交叉熵函数
交叉熵函数即待优化的目标函数,来自最大似然估计,计算估计值与真实值的偏差,检验并选择最优结果.
5.2 梯度
梯度用于优化迭代时使用.
对参数求导,获取导数(梯度):
5.3 信息熵
其中,按照分类取值,如样本分为三类,则可能取值[1, 0, 0],[0.4, 0.2, 0.4].
6 总结
(1) 回归:研究变量间的关系,即自变量估计因变量;
(2) 回归分为线性回归和非线性回归,其中,线性回归的目标函数(优化函数)使用均方差构建;非线性回归的目标函数(优化函数)使用概率模型最大似然估计构建;逻辑回归理论上也是线性回归,只能发现变量间的线性关系;
(3) 交叉熵为非线性回归,使用最大似然估计构建目标函数;
(4) 优化目标函数分为传统优化和现代优化,传统优化的特点是预先设置误差点,满足误差,即停止迭代;现代优化,属于模糊优化,不设置误差范围,只设定迭代轮数,迭代结束评价模型:构建回归模型构造目标函数设置误差范围选择优化算法迭代优化至满足误差要求;
(5) 交叉熵用于计算估计值(预测值)和实际值的偏离程度,选择最优的分类.
(6) 逻辑回归优缺点
优点 | 缺点 | 建议 |
输入变量可连续可离散 | 只能发现变量间的线性关系 | 提前去除无关变量 |
模型简单直观,容易解释 | 输入变量间应相互独立 | 去除相关性较高的变量 |
不容易产生过拟合 | / | 离散化变量 |
(7) 正因为sigmoid(逻辑回归)只能发现变量间的线性关系,所以激活函数很少用,一般用Relu.
【参考文献】
[2]https://wenku.baidu.com/view/771515f7f705cc17552709c9.html