逻辑回归和线性回归不太一样,逻辑回归做的是分类。
其实和线性回归都是广义线性模型(generalizedlinear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
- 如果是连续的,就是多重线性回归;
- 如果是二项分布,就是Logistic回归;
- 如果是Poisson分布,就是Poisson回归;
- 如果是负二项分布,就是负二项回归。
这类监督学习的总体思路如下:
1、确定预测函数,就是样本和预测结果的大致关系的函数,线性回归是线性方程或者多项式方程,逻辑回归是sigmoid函数。
2、确定损失函数,线性回归是连续型的高斯分布概率密度(通过线性方程求解出来误差项带入),逻辑回归是离散的01的二项分布函数(预测函数就是概率,直接带入二项分布的分布函数)。
3、通过最大似然估计求解,损失函数连乘,求解一般用的是log,后用梯度下降或上升法,迭代参数,迭代的量一般是极大似然估计求导后的一些线性变换 。
接着上次博文,逻辑回归是把线性回归的目标函数转化到sigmoid函数,sigmoid函数是一个转化为0到1也就是概率的函数。既然是分类就和线性回归不一样,线性回归是利用了误差的特性,高斯函数,做的连续性密度函数,利用最大似然估计法和梯度下降法估算出来x的系数的值。逻辑回归是分类,概率分布函数是离散的,通过概率分布函数的最大似然估计来算出来使得样本发生的概率最大的x的系数。
步骤如下:
1、计算到线性回归的目标函数(这里没有了线性回归的误差项):
在 回归里面上个式子是y,除了没有误差项。带入到sigmoid函数:
函数的图形如下:
带入后如下:
sigmoid函数可以帮助把原来的y值转化为离散的概率值。方便使用二项分布。
2、寻找损失函数,二分类如下:
其实就是下面式子中的y=0 or y=1
这就是损失函数,就是二项分布的分布函数。
3、求最大似然函数,梯度下降求解 :
通过梯度下降法迭代求解:
转化为梯度下降法。
对损失函数最大似然估计求导:
得出来的就是参数更新需要的量。i为样本序列,j表示样本的第几个特征。y是预测值。
参数更新:
多分类可以如下计算:
进行了归一化。就是概率。