Logistic回归算法

Logistic回归是众多分类算法中的一员。通常,Logistic回归用于二分类问题,例如预测明天是否会下雨。当然它也可以用于多分类问题,不过为了简单起见,本文暂先讨论二分类问题。首先,让我们来了解一下,什么是Logistic回归。

python logistic回归自变量多分类变量 多分类logistic回归结果分析_代价函数


1: Logistic回归(相当于sigmoid 函数)

假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回归,如上图。

公式:

Logistic回归一种二分类算法,它利用的是Sigmoid函数阈值在[0,1]这个特性。Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。其实,Logistic本质上是一个基于条件概率的判别模型
2:
Logistic回归虽然名字上是叫回归,但其实它是一种分类算法。Logistic回归也在一些文献中也称为logit回归、最大熵分类(MaxEnt)或对数线性分类器。

“回归”的意思就是要找到最佳拟合参数,其中涉及的数学原理和步骤如下:

  • 需要一个合适的分类函数来实现分类。可以使用单位阶跃函数或者Sigmoid函数。
  • 用 代价函数 来表示 预测值h(x) 与 实际值y 的偏差 (h−y)。要使得回归最佳拟合,那么偏差要尽可能小(偏差求和或取均科值)。
  • 记J(w,b)表示回归系数取w时的偏差,那么求最佳回归参数w,b就转换成了求J(w,b)的最小值。可以使用梯度下降法(下降也可以)求回归参数w,b。

3:与多线性回归的差别
线性规话它的变量有很多,考虑的因素有很多,比如身高,体重,年龄······
而Logistic则关心的因素少,结果只是分成两列,是与不是 两种结果

h(x) 是数据带入sigmiod 函数后的表达式

python logistic回归自变量多分类变量 多分类logistic回归结果分析_分类算法_02


第一条求:产生 y=1 的概率,因为经过sigmoid函数后区间【0,1】间可以代表概率第二条求:产生 y=0的概率整合成一条公式:如下图

python logistic回归自变量多分类变量 多分类logistic回归结果分析_代价函数_03


取对数变形得:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_代价函数_04


又因为:

![在这里插入图片描述](

python logistic回归自变量多分类变量 多分类logistic回归结果分析_分类算法_05


带入,且损失值一般为负值,我们需要取正值,加负号:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_分类算法_06


python logistic回归自变量多分类变量 多分类logistic回归结果分析_分类算法_07


这是代价函数:是n 个 样本的损失函数的集合:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_拟合_08

梯度上升和下降

要使得代价函数越小越好就是要:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_分类算法_09


越大越好。为求最大值,这里采用梯度上升:

一系列链式法则:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_拟合_10


python logistic回归自变量多分类变量 多分类logistic回归结果分析_拟合_11


通过链式法则求得权重 w 的关系:

python logistic回归自变量多分类变量 多分类logistic回归结果分析_代价函数_12

  • 上面对 dw求偏导的几何意义是:表示固定面上一点的切线斜率(又斜率意义为:直线倾斜程度的度量)总结得到下面这条梯度意义

这是梯度上升 因为是加号

python logistic回归自变量多分类变量 多分类logistic回归结果分析_代价函数_13


a 是学习率

x 是旧得权重

寻找一定的次数,得到最好的拟合参数(权重)
便找出分界线

待续