1.Logistic回归算法的前提基础

1.1回归概念

假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。

1.2sigmoid函数

问题需求:二值型输出分类函数:在两个类的情况下,上述函数输出 0 或 1.或许你之前接触过具有这种性质的函数,该函数称为 海维塞得阶跃函数(Heaviside step function),或者直接称为 单位阶跃函数。然而,海维塞得阶跃函数的问题在于: 该函数在跳跃点上从 0 瞬间跳跃到1,这个瞬间跳跃过程有时很难处理。幸好,另一个函数也有类似的性质(可以输出 0 或者 1 的性质),且数学上更易处理,这就是 Sigmoid 函数。

计算公式:

Logistic回归中的p值有什么意义 logistic回归p值接近于1_Logidtic回归

                 

Logistic回归中的p值有什么意义 logistic回归p值接近于1_machine learning_02

    采用向量法,可以写成:

Logistic回归中的p值有什么意义 logistic回归p值接近于1_拟合_03

曲线图:

Logistic回归中的p值有什么意义 logistic回归p值接近于1_拟合_04

1.3梯度上升&&梯度下降

目的:为了寻找最佳参数 

Logistic回归中的p值有什么意义 logistic回归p值接近于1_数据_05

 ,使得分类器尽可能地精确。

梯度:用 

Logistic回归中的p值有什么意义 logistic回归p值接近于1_Logistic回归中的p值有什么意义_06

 表示,则函数

Logistic回归中的p值有什么意义 logistic回归p值接近于1_拟合_07

的梯度表达式为:

                      

Logistic回归中的p值有什么意义 logistic回归p值接近于1_数据_08

这个梯度意味着要沿 x 的方向移动

Logistic回归中的p值有什么意义 logistic回归p值接近于1_machine learning_09

,沿 y 的方向移动

Logistic回归中的p值有什么意义 logistic回归p值接近于1_数据_10

。其中,函数f(x, y) 必须要在待计算的点上有定义并且可微。

梯度上升公式:

Logistic回归中的p值有什么意义 logistic回归p值接近于1_拟合_11

      ——用来找全局最大值

梯度下降公式:

Logistic回归中的p值有什么意义 logistic回归p值接近于1_数据_12

      ——用来找全局最小值

α:上面的梯度算法的迭代公式中的阿尔法,这个代表的是移动步长。移动步长会影响最终结果的拟合程度,最好的方法就是随着迭代次数更改移动步长。

▽f(w):代表沿着梯度变化的方向。

2.Logistic回归 工作原理

每个回归系数初始化为 1
重复 R 次:
          计算整个数据集的梯度
          使用 步长 x 梯度 更新回归系数的向量
返回回归系数

3.Logistic回归 开发流程

收集数据: 采用任意方法收集数据
准备数据: 由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。
分析数据: 采用任意方法对数据进行分析。
训练算法: 大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。
测试算法: 一旦训练步骤完成,分类将会很快。
使用算法: 首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属于哪个类别。

4.Logistic回归 算法特点

优点: 计算代价不高,易于理解和实现。
缺点: 容易欠拟合,分类精度可能不高。
适用数据类型: 数值型和标称型数据

5.Logistic回归 关键代码实现

(后续更新)