statsmodels构建逻辑回归逻辑回归建模

转载

mob64ca13f937ae 2024-05-06 20:31:00

文章标签 statsmodels构建逻辑回归机器学习人工智能 r语言算法 文章分类 机器学习人工智能

在真实工作场景中，有多种算法依据借贷数据集建立模型，主要使用的算法有逻辑回归、神经网络、决策树、贝叶斯信念网、GBDT算法等，本系列文章旨在为刚入门和对模型感兴趣的同学介绍传统风控模型算法之一——逻辑回归。

前方高能！准备发车！

逻辑回归算法

逻辑回归(LogisticRegression)又称为逻辑回归分析，经常被用于分类，是常用的预测算法之一。通过学习历史数据的特性预测新数据的表现结果。

例如，可以将放贷概率设定为因变量，将用户的自身属性以及行为特征属性，例如家庭人员数量、婚姻状况、年龄、同一页面停留时间等设定为自变量，根据这些特征属性预测放贷的概率。

统计学家开发了逻辑函数，也被称为sigmoid函数。

statsmodels构建逻辑回归逻辑回归建模_人工智能

用于描述生态中人口增长的特性，迅速上升并最大限度地发挥环境的承载能力。这是一个S形曲线，它可以取任何实数值并将其映射到0到1之间的值，但不会完全处于这些极限值。逻辑回归可以认为是因变量可以进行二分类时的回归分析。

像所有回归分析一样，逻辑回归是预测分析。Logistic回归用于描述数据并解释一个定性变量（取值0或1）与一个或多个名词、序数、区间或比率相关变量之间的关系。它可以应用于借贷事件的发生某些事件的概率，例如美国FICO的信用评分卡模型就是基于逻辑回归建立的。

线性回归方程

statsmodels构建逻辑回归逻辑回归建模_r语言_02

将线性回归方程代入上述Sigmoid函数,即得到逻辑回归方程:

statsmodels构建逻辑回归逻辑回归建模_人工智能_03

当x=0时,Sigmoid函数值为0.5；当x→∞时,Sigmoid函数值将逼近1；而当x→-∞,Sigmoid函数值将逼近0。Sigmoid函数可以将输出映射到(0,1）之间,表明某组数据属于某一类别的概率,比如设定阈值为0.5,则当h(x）<0.5 与 h(x）>0.5的时候,函数表示的特征数两类。

逻辑回归算法计算流程

针对某一任务数据集,找一个合适的预测函数,一般表示为h函数,即分类函数,用来预测输入数据的判断结果；

其次构造一个损失函数,该函数表示预测的输出与训练数据类别之间的偏差,可以是二者之间的差或者是其他形式,综合考虑所有训练数据的损失,将损失函数求和或求平均,记为J函数,表示所有训练数据预测值与实际类别的偏差。

当J函数的值越小表示预测函数越准确,所以需要采用某种方法找到J函数的最小值。对于参数的估计,往往采用梯度下降的优化方式：

statsmodels构建逻辑回归逻辑回归建模_人工智能_04

对于任意任务数据集,通过选择合适的损失函数,结合梯度下降、极大似然估计获得对模型特征系数的估计也就是完成整个算法计算过程,获得目标算法的训练过程。

Sigmoid函数的上述性质非常适合二分类模型,同时对于变量中的每个特征,都能通过其系数给出合理的解释。

基于逻辑回归算法构建贷前反欺诈模型示例

statsmodels构建逻辑回归逻辑回归建模_算法_05

1.数据收集及处理

基于逻辑回归算法的个人贷款贷前反欺诈模型是基于客户各种维度数据进行开发的,常见的数据维度包括年龄、生日、性别、文化程度、职业、行业、收入、电话、邮箱、身份证信息、婚姻状况、住址、公司地址、房屋类型、家庭人均年收入等等。获得这些数据的途径包括申请信息填写、第三方数据公司合作等方式。

但是原始数据中由于客户填写的内容未必是真正信息、收集信息过程中存在不确定性事件,往往会存在缺失值、重复值、异常值等,这就需要对不同维度、有可能存在交叉冗余的原始数据信息进行进行统计分析、关联性分析等处理,然后获得能够用于建模的数据。

2.特征工程

原始数据经过预处理之后,需要对其进行特征工程,即结合业务知识、数据方法构建能够确认模型的特征集。特征工程中,数据质量和特征维度直接决定了机器学习模型性能的上限,而模型的构建和具体算法的选择则是趋近上限的方法。

3.特征选择

通过特征工程能够获得很多特征,包括原始特征、衍生特征,但是考虑到模型的复杂度以及特征对预测结果的重要性,我们需要对已有特征进行特征选择,获得入模特征。

4.模型构建

利用特征选择得到的特征作为入模特征,结合逻辑回归模型进行模型训练,选择合适的损失函数训练固定次数或待模型精度达到要求,完成模型构建。但是根据实际工程经验,模型构建的过程往往是多次迭代,逐步优化的过程,不是一次训练就直接获得最终模型。

5.模型评估

考虑到本示例是用于个人消费贷款贷前反欺诈环节,属于分类模型,结合实际的业务经验,对于本领域的模型从稳定性、区分性、排序性三个方面进行评估。常用的指标包括KS值、AUC值、GINI系数等指标。若训练好的模型在各评估维度或某几个特定维度满足业务要求,即可将其作为最终模型。反之,则需要重复以上几个步骤进行模型迭代优化。看完了以上内容是不是很有收获呢？这只是冰山一角哦~如果你想对上述搭建的模型感兴趣，想更深入学习建模能力。欢迎选择「量化风控模型机会创造营」⬇️

没套路不会写代码

风控模型训练营2.0版本中，教会你以下各种“套路“，让你事半功倍。

第一周通过精讲风控模型框架，教会你建模流程上的“套路”。
导师总结自己实际建模工作中用到的Python和Sql代码，求同存异，第一周教给你能完成工作中约80%模型代码的“套路”模版。

第一周通过学习单特征构建、多特征筛选、四类主流特征构造方法以及第二周学习TF-IDF方法，教会你特征构建的“套路”。

第二周通过学习参数调优各种高效大法，教会你参数自动化调优的“套路”。

不懂算法

我们知道很多人算法基础差，自己读书也难以理解枯燥的数学公式，风控模型训练营2.0版本中，我们会这样教你学算法。

第二周通过先学习银行类金融机构风控模型中最常用的逻辑回归算法，把最常用最基础的逻辑回归算法真正学懂学会，让你求职银行这类相对传统的金融机构风控建模岗完全Hold住。

第二周通过再学习GBDT、Xgboost等几个常用二分类机器学习算法，让你遇到一些求创新的银行风控建模岗面试官，或者互联网金融科技公司如某阿某讯某东，也能游刃有余的介绍和使用算法。

第二周通过学习前沿算法，让你对算法新方向有所了解，面试或工作中展现自己超前学习力，面试加分。

没有模型体系知识

不论是面试还是工作中，模型体系的建立和掌握是至关重要的。尤其是在求职中，面试官对求职者有没有体系性的模型理解是极为看重，有体系性的理解代表着将来他能有无限的可能性。