五一假期结束了,大家是不是还有些意犹未尽呢?没关系,激动人心的大数据挑战赛马上就要来了!我们已经通过公文正式下发了竞赛通知,请大家注意查收呦。

本期我们将为大家揭秘另一个竞赛知识点--逻辑回归算法。英语名称是Logistic Regression。 

从专业角度讲,逻辑回归假设被解释变量服从伯努利分布,通过极大化似然函数的方法,运用梯度下降求解参数,从而达到将数据二分类的目的。

大家只要了解它是一种经典的二分类算法,也是目前最流行、最有影响力的分类算法就OK啦。

假如现在有一个交易明细数据,我们判断这个交易是否是欺诈交易时,就需要用到逻辑回归算法了。

逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,都具有 ax+b,其中a和b是待求参数。

区别在于他们的因变量不同,线性回归直接将ax+b作为因变量,即y = ax+b,而逻辑回归则通过函数S将ax+b对应到一个隐状态p,p = S(ax+b),然后根据p与1-p的大小决定因变量的值。这里的函数S就是Sigmoid函数。

逻辑回归



大数据线性回归数据集 大数据回归算法_大数据

函数中t无论取什么值,其结果都在[0,1]的区间内。

回想一下,一个分类问题就有两种答案,一种是“是”,一种是“否”,一般情况,0对应着“否”,1对应着“是”。

有人也许要问了,你这不是[0,1]的区间吗,怎么会只有0和1呢?这个问题问得好,我们假设分类的阈值是0.5,那么超过0.5的归为1分类,低于0.5的归为0分类,当然这个阈值是我们自己设定的。

接下来我们把ax+b带入t中就得到了我们的逻辑回归的一般模型方程:

逻辑回归模型方程



大数据线性回归数据集 大数据回归算法_逻辑回归算法_02

逻辑回归函数有以下两个特点:

逻辑回归函数特点



大数据线性回归数据集 大数据回归算法_逻辑回归算法_03

结果P可以理解为概率,按照我们假设的分类阈值,概率大于0.5的属于1分类,概率小于0.5的属于0分类,这就达到了分类的目的。

下面我们来举个例子,比如有一门考试之前学生的复习时间与这个学生最后是否通过这门考试的数据:

学生复习时间与考试通过情况



大数据线性回归数据集 大数据回归算法_逻辑回归算法_04

通过这些数据,利用逻辑回归算法进行模型训练(此处省略训练过程),可以得到最终的模型结果是这个样子:

模型结果



大数据线性回归数据集 大数据回归算法_大数据_05

这样,给出任何复习时间,就可以预测出是否通过的概率:

是否通过的概率



大数据线性回归数据集 大数据回归算法_数据_06