二元逻辑回归分析自变量与样本量二元逻辑回归检验

转载

mob6454cc76dff7 2024-06-21 08:50:53

文章标签 二元逻辑回归分析自变量与样本量机器学习逻辑回归算法 python 文章分类 机器学习人工智能

逻辑回归原理总结

概述

什么是逻辑回归？–从二分类开始说起
二元逻辑回归模型的拟合
多分类逻辑回归

1. 什么是逻辑回归？–从二分类开始说起

回顾线性回归 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归$ ，我们知道响应变量 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_02$ 一般是连续的，但在分类问题中，比如常见的二分类中 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_03$ 或 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_04$ 是非连续的。为了依旧能够利用输入特征 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_05$ 的线性函数来建立分类的后验概率 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_06$ 和 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_07$ ，可以对线性回归 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_08$ （ $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_05$ 的线性函数）进行如下变换
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_10$
可以发现，此时 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_11$ 。通常取临界值0.5，当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_12$ ，即 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_13$ 时， $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_04$ ；当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_15$ ，即 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_16$ 时， $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_03$ ；当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_18$ ，此时逻辑回归无法确定分类。也就是说，当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_08$ 越大，分为1的概率越大；当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_08$ 越小，分为0的概率越大；当 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_08$ 越接近0，分类的不确定性越大。

逻辑回归实质上是一种“概率预测”方法，它的输出不是分类变量，而是样本属于某类的概率大小。

2. 二元逻辑回归模型的拟合

由于二分类问题的响应变量非连续，所以最小二乘方法中的误差平方和损失在这不适用，我们可以采用最大似然进行拟合。假设二分类响应变量为 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_03$ 和 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_04$ ，且
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_24$

$二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_25$

合并上述两式
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_26$
对应的 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_27$ 样本对数似然为
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_28$
即
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_29$
下面介绍两种求解上述最优化问题方法：梯度上升发、改进的随机梯度上升法

采用梯度上升法求解最优参数，先对上式求导

$二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_30$
梯度上升法中每一步向量 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_31$ 的迭代公式如下，其中 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_32$ 为迭代步长，
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_33$

改进的随机梯度上升法shizi：一次仅用一个严样本点来更新回归系数
因为，从 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_34$ 式可以看出，梯度上升法在每次更新回归系数时都需要遍历整个数据集，当样本集 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_35$

3.多分类逻辑回归

构建逻辑回归模型意在利用输入特征 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_36$ 的线性函数来建立分类（ $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_37$ ）的后验概率，并要求所有类别的后验概率之和为1且都在 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_38$ 内。该模型的形式为（称之为Logit变换或log-odds），总共 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_二元逻辑回归分析自变量与样本量_39$ 个方程，
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_40$

$二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_41$

$二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_42$

$二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_43$

整个模型的参数为 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_python_44$ 。根据 $二元逻辑回归分析自变量与样本量二元逻辑回归检验_机器学习_45$ 可以计算出
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_算法_46$
$二元逻辑回归分析自变量与样本量二元逻辑回归检验_逻辑回归_47$