python绘制3d风险矩阵

转载

mob64ca13fe62db 2024-07-10 15:35:59

文章标签 python绘制3d风险矩阵机器学习数据建模调优 文章分类 Python 后端开发

风控建模=业务＋算法+项目

标准评分卡开发流程
python：pandas、numpy、statsmodels、sklearn

数据分析流程：
1，数据获取
2，数据预处理（空值，异常值处理）
3，对数据进行分箱，woe编码，建模预估
4，评估模型的区分能力、预测能力、稳定性，并形成模型评估报告
5，将Logistic模型转换为标准评分

https://www.pianshen.com/article/939468951/

数据：

特征部分：

特征工程：https://zhuanlan.zhihu.com/p/111296130 https://zhuanlan.zhihu.com/p/111297905 1）一份完整的自动化特征评估脚本
2）包括数据预处理、特征分箱、特征重要性评估

特征工程预处理大全：

数据预处理： 1、数据分布。 2、数据集中度检测。 3、数据脏乱情况。缺失值（是否隐藏风险）、离群值、错误值、重复值，根据其是否符合业务逻辑，判断数据是否存在异常。
特征工程：特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
筛选变量的常用方法：随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
好的特征：1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑
衍生特征，从三种角度出发： 1、数学运算。求和、比例、频率、平均等。 2、时间窗口。有些变量的意义只有在一段时间内才有效，所以针对时间比如说注册如期、交易日期等变量，需要计算其到现在的时间段，完成变量的衍生。 3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。衍生出来的特征要符合实际业务含义，并且要保持稳定。

挑选特征：挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。
IV（信息量）量化指标：衡量每自变量的预测能力。

IV值可以衡量各变量对y的预测能力，用于筛选变量。
对离散型变量，woe可以观察各个level间的跳转对odds的提升是否呈线性，而IV可以衡量变量整体（而不是每个level）的预测能力。
对连续型变量，woe和IV值为分箱的合理性提供了一定的依据。

模型部分：

熟悉算法，公式推导及其在应用场景中的差别
简单评价几种常用算法的优缺点：

逻辑回归优点：简单、稳定、可解释、技术成熟、易于监测和部署缺点：一定不能有缺失数据；必须是数值型特征，需要编码；准确度不高
决策树优点：对数据质量要求不高，易解释缺点：准确度不高
其他元模型
组合模型优点：准确度高，稳定性强，泛化能力强，不易过拟合缺点：不易解释，部署困难，计算量大

模型评估：

区分度：主要有KS和GINI指标，理解KS的定义及用法
准确性：主要有roc曲线和AUC指标，理解AUC的定义及用法
稳定性：主要有PSI指标，理解PSI的定义及用法

auc和ks的关系？有人说auc是衡量整个模型的排序能力，KS是衡量某个分段的区分能力。

模型部署

模型的部署上线应用类似的问题，偏开发，分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。

模型监测

上述一些运营数据和风控指标的关注

模型调优

模型调优的方法

A类调优
D类调优

当下的建模过程中（至少在金融风控领域）并没有完全摆脱logistic模型，原因大致有以下几点：

logistic模型客群变化的敏感度不如其他高复杂度模型，因此稳健更好，鲁棒性更强。
模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家，变量系数可以跟他们的业内知识做交叉验证，更容易让人信服。
也是基于2的模型直观性，当模型效果衰减的时候，logistic模型能更好的诊断病因。

评分卡模型的评分转换：
WOE&IV：https://zhuanlan.zhihu.com/p/30026040

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：response letter上参考文献

下一篇：python的thread是一个库吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯