个人观点,信贷行业中,模型稳定性往往比模型效果更重要。信贷行业所做的任何规则、政策、模型的调整,都需要较长时间才能知道结果如何,模型迭代周期相较于其他行业可能更长,因此一个模型的稳定性至关重要。当然在模型迭代周期较短的场景下,可以去追求更好的模型效果,比如有些反欺诈场景,模型模型迭代快,模型可以快速及时调整。但对于大多数其他情况,无论是做评分卡还是机器学习,个人在实践中会为了稳定性牺牲掉一些效果。
解决的问题: 1、实现了二分类的卡方分箱; 2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。 1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展: 1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。 2、需要实现更多分类的卡方分箱算法; 具体代码如下:# -
什么是分箱?简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件什么样式的数据要进行分箱数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。为什么要对数据进行分箱操作稳定性,时间复杂度,看的舒服,提高准确度 等等分箱分为 有监督和无监督先说有监督,意思就是 个人确定范围区间 
转载 2023-09-19 11:01:51
56阅读
解决的问题:1、实现了二分类的卡方分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡方分箱算法;具体代码如下:# -*- coding:
打印分箱结果eval.eval_feature_detail(Info_Value_list,out_path=False)输入:Info_Value_list:存储各变量分箱结果(proc_woe_continuous/discrete的返回值)的List.out_path:指定的分箱结果存储路径,输出为csv文件输出:各变量分箱结果的DataFrame。各列分别包含如下信息:var_name变
笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱。近期换用python开发, 也想实现自动分箱功能,找到了一个woe包,地址https://pypi.org/project/woe/,可以直接 pip install woe安装。由于此woe包官网介绍及给的例子不是很好理解,关于每个函数的使用也没有很详细的说明,经过一番仔细探究后以此文记
文章目录python 等深分箱法(均值平滑技术、边界值平滑技术)理论学习实验及结果等深分箱法(均值平滑技术、边界值平滑技术)等宽分箱法(均值平滑技术、边界值平滑技术) python 等深分箱法(均值平滑技术、边界值平滑技术)理论学习首先,仔细了解熟悉掌握了等深分箱法,等宽分箱法,均值平滑技术,边界值平滑技术,看了好几个博客,个人觉得讲的最清晰明了,对我帮助最大的是数据挖掘如何分箱以及如何对每个箱
卡方分箱卡方分箱原理数据分析与数据挖掘之四大分布三大检验python自带分箱函数  --  无法实现对分类型数据的分箱,可借助卡方分箱算法实现import numpy as np import pandas as pd data = np.random.randint(100, size=(10000,)) #自定义分箱 #cut(x, bins, right=True,
转载 2023-06-12 20:46:17
413阅读
# Python 分箱代码实现 ## 1. 整体流程 下面的表格展示了实现Python分箱代码的整体流程: | 步骤 | 描述 | | --- | --- | | 步骤1 | 准备数据 | | 步骤2 | 数据预处理 | | 步骤3 | 分箱操作 | | 步骤4 | 分析箱子结果 | | 步骤5 | 结果可视化 | 在接下来的文章中,我将逐步介绍每个步骤的具体实现方法和所需代码。 ##
原创 2023-08-22 08:02:35
178阅读
使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量。分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。我们创建以下合成数据用于演示import pandas as pd # version 1.3.5 impo
什么叫分箱?连续变量的离散化处理。例如年龄:从1、2、3、4……100变成“1~20”、“21~30”差不多这个样子。问题场景(为什么要分箱):不论是做业务分析还是建模前的特征工程,经常会遇到一个问题,连续变量需要分箱。且分箱会有一个诉求:分出来的组,对于目标指标(比如转化率)差异最大。业务分析中这样做的目的在于:一些连续变量对于最终结果指标的影响程度有更好的可解释性。比如客户的年龄与转化率相关性
一、整数如: 18、73、84每一个整数都具备如下功能: int二、长整型可能如:2147483649、9223372036854775807每个长整型都具备如下功能: long三、浮点型如:3.14、2.88每个浮点型都具备如下功能: float四、字符串如:'wupeiqi'、'alex'每个字符串都具备如下功能: str注:编码;字符串的乘法;字符串和
转载 2023-05-27 17:20:50
82阅读
最近在处理数据时,需要使用python绘制箱线图。1. 箱线图箱线图(Box-plot)又称为盒式图或箱型图,是一种用来显示一组数据分散情况的统计图,它能显示一组数据的上界、下界、中位数、上下四分位数以及异常值等。四分位数:就是把一组数据按照从小到大的顺序进行排列,然后分成四等份,处于三个分割点位置的数字就是四分位数;第一四分位数(q1):又称“较小四分位数”或“下四分位数”,等于该样本中所有数值
转载 2023-08-20 23:18:12
141阅读
## 什么是WOE分箱 WOE(Weight of Evidence)是一种常用的特征离散化方法,它可以将连续变量转换为离散变量,从而更好地适应建模需求。WOE分箱的主要目的是将原始数据进行分组,使得同一组内的样本具有较为相似的响应概率,而不同组之间的响应概率有较大的差异。通过WOE分箱,我们可以更好地了解自变量对于因变量的影响程度。 关于WOE分箱代码实现一般使用Python编程语言,下面
原创 2023-08-11 16:42:06
352阅读
# 等宽分箱的实现流程 ## 步骤概览 在实现等宽分箱的过程中,我们需要完成以下几个步骤: 1. 理解等宽分箱的概念和目的。 2. 探索数据集并了解待处理的特征。 3. 计算分箱的边界。 4. 对数据进行分箱。 5. 可选:对分箱结果进行可视化和分析。 下面我们将逐步展开每个步骤,并给出相关的Python代码示例。 ## 1. 理解等宽分箱的概念和目的 等宽分箱是一种特征离散化的方法,
原创 2023-08-11 13:44:24
199阅读
之前介绍了分箱的理论: 本次针对卡方分箱代码进行解释数据集及完整代码:https://github.com/Andyszl/Feature_Engineering/blob/master/卡方分箱.ipynb分箱分箱的定义将连续变量离散化将多状态的离散变量合并成少状态 相近合并分箱的重要性稳定性:避免特征中无意义的波动对评分带来的波动–变量的细微变动引起评分的波动是无意义的健壮性:避免了
转载 2023-08-17 16:51:31
76阅读
# 等距分箱及其在Python中的应用 ## 引言 在数据分析和机器学习中,我们经常需要对连续型变量进行分箱处理,以便更好地理解和挖掘数据。等距分箱是最简单且常用的一种分箱方法之一,它将连续型变量划分为若干个等宽的区间,将原始数据离散化成有限的几个值。本文将介绍等距分箱的原理和在Python中的实现方法,并通过代码示例展示其具体应用。 ## 等距分箱的原理 等距分箱的原理非常简单,即将连续
原创 10月前
79阅读
1 BestKS分箱从网上翻了很多BestKS内容,结果发现不同网站不同博主的BestKS代码几乎都是相同的。这里我的代码也参考了资料1(链接在文末)BestKS分箱的基本原理如图1 图1 PS:最近在网上找到的代码都跟参考资料1中的重复。先简单说一下这两个版本的代码(希望代码原作者看到不要生气):简单版:简单版的问题主要在于ks_zone()函数。从这个函数中可以看到,每次是选择
《数据挖掘与机器学习》复习根据复习阶段遇到的题型列出比较可能考的知识点第1章 绪论这部分基本概念了解即可第2章 数据预处理光滑噪声数据的方法——分箱分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。分箱等深分箱 统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最
几乎在所有编程语言当中变量是最先接触语法概念,那么什么是变量,变量应该怎么定义呢,定义变量又该注意哪些因素呢?这里我们来给大家详细聊聊。一、变量的定义在python中定义变量很简单,只要一个赋值语句就可以了比如:a = 10这里就成功定义一个变量了,这里的a是变量名,=号是赋值,10是变量的值。这里要特别注意的是使用=号把10 赋值给a,这个顺序不能错乱。二、变量的分类上面我们定义了一个
  • 1
  • 2
  • 3
  • 4
  • 5