Logistic回归算法
Logistic回归是众多分类算法中的一员。通常,Logistic回归用于二分类问题,例如预测明天是否会下雨。当然它也可以用于多分类问题,不过为了简单起见,本文暂先讨论二分类问题。首先,让我们来了解一下,什么是Logistic回归。
1: Logistic回归(相当于sigmoid 函数)
假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回归,如上图。
公式:
Logistic回归一种二分类算法,它利用的是Sigmoid函数阈值在[0,1]这个特性。Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。其实,Logistic本质上是一个基于条件概率的判别模型
2:
Logistic回归虽然名字上是叫回归,但其实它是一种分类算法。Logistic回归也在一些文献中也称为logit回归、最大熵分类(MaxEnt)或对数线性分类器。
“回归”的意思就是要找到最佳拟合参数,其中涉及的数学原理和步骤如下:
- 需要一个合适的分类函数来实现分类。可以使用单位阶跃函数或者Sigmoid函数。
- 用 代价函数 来表示 预测值h(x) 与 实际值y 的偏差 (h−y)。要使得回归最佳拟合,那么偏差要尽可能小(偏差求和或取均科值)。
- 记J(w,b)表示回归系数取w时的偏差,那么求最佳回归参数w,b就转换成了求J(w,b)的最小值。可以使用梯度下降法(下降也可以)求回归参数w,b。
3:与多线性回归的差别
线性规话它的变量有很多,考虑的因素有很多,比如身高,体重,年龄······
而Logistic则关心的因素少,结果只是分成两列,是与不是 两种结果
h(x) 是数据带入sigmiod 函数后的表达式
第一条求:产生 y=1 的概率,因为经过sigmoid函数后区间【0,1】间可以代表概率第二条求:产生 y=0的概率整合成一条公式:如下图
取对数变形得:
又因为:
![在这里插入图片描述](
带入,且损失值一般为负值,我们需要取正值,加负号:
这是代价函数:是n 个 样本的损失函数的集合:
梯度上升和下降
要使得代价函数越小越好就是要:
越大越好。为求最大值,这里采用梯度上升:
一系列链式法则:
通过链式法则求得权重 w 的关系:
- 上面对 dw求偏导的几何意义是:表示固定面上一点的切线斜率(又斜率意义为:直线倾斜程度的度量)总结得到下面这条梯度意义
这是梯度上升 因为是加号
a 是学习率
x 是旧得权重
寻找一定的次数,得到最好的拟合参数(权重)
便找出分界线
待续