个人观点,信贷行业中,模型稳定性往往比模型效果更重要。信贷行业所做的任何规则、政策、模型的调整,都需要较长时间才能知道结果如何,模型迭代周期相较于其他行业可能更长,因此一个模型的稳定性至关重要。当然在模型迭代周期较短的场景下,可以去追求更好的模型效果,比如有些反欺诈场景,模型模型迭代快,模型可以快速及时调整。但对于大多数其他情况,无论是做评分卡还是机器学习,个人在实践中会为了稳定性牺牲掉一些效果。
解决的问题:1、实现了二分类的卡方分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡方分箱算法;具体代码如下:# -*- coding:
什么是分箱?简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件什么样式的数据要进行分箱数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。为什么要对数据进行分箱操作稳定性,时间复杂度,看的舒服,提高准确度 等等分箱分为 有监督和无监督先说有监督,意思就是 个人确定范围区间 
转载 2023-09-19 11:01:51
64阅读
解决的问题: 1、实现了二分类的卡方分箱; 2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。 1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展: 1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。 2、需要实现更多分类的卡方分箱算法; 具体代码如下:# -
打印分箱结果eval.eval_feature_detail(Info_Value_list,out_path=False)输入:Info_Value_list:存储各变量分箱结果(proc_woe_continuous/discrete的返回值)的List.out_path:指定的分箱结果存储路径,输出为csv文件输出:各变量分箱结果的DataFrame。各列分别包含如下信息:var_name变
笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱。近期换用python开发, 也想实现自动分箱功能,找到了一个woe包,地址https://pypi.org/project/woe/,可以直接 pip install woe安装。由于此woe包官网介绍及给的例子不是很好理解,关于每个函数的使用也没有很详细的说明,经过一番仔细探究后以此文记
文章目录python 等深分箱法(均值平滑技术、边界值平滑技术)理论学习实验及结果等深分箱法(均值平滑技术、边界值平滑技术)等宽分箱法(均值平滑技术、边界值平滑技术) python 等深分箱法(均值平滑技术、边界值平滑技术)理论学习首先,仔细了解熟悉掌握了等深分箱法,等宽分箱法,均值平滑技术,边界值平滑技术,看了好几个博客,个人觉得讲的最清晰明了,对我帮助最大的是数据挖掘如何分箱以及如何对每个箱
卡方分箱卡方分箱原理数据分析与数据挖掘之四大分布三大检验python自带分箱函数  --  无法实现对分类型数据的分箱,可借助卡方分箱算法实现import numpy as np import pandas as pd data = np.random.randint(100, size=(10000,)) #自定义分箱 #cut(x, bins, right=True,
转载 2023-06-12 20:46:17
423阅读
# Python 分箱代码实现 ## 1. 整体流程 下面的表格展示了实现Python分箱代码的整体流程: | 步骤 | 描述 | | --- | --- | | 步骤1 | 准备数据 | | 步骤2 | 数据预处理 | | 步骤3 | 分箱操作 | | 步骤4 | 分析箱子结果 | | 步骤5 | 结果可视化 | 在接下来的文章中,我将逐步介绍每个步骤的具体实现方法和所需代码。 ##
原创 2023-08-22 08:02:35
219阅读
什么叫分箱?连续变量的离散化处理。例如年龄:从1、2、3、4……100变成“1~20”、“21~30”差不多这个样子。问题场景(为什么要分箱):不论是做业务分析还是建模前的特征工程,经常会遇到一个问题,连续变量需要分箱。且分箱会有一个诉求:分出来的组,对于目标指标(比如转化率)差异最大。业务分析中这样做的目的在于:一些连续变量对于最终结果指标的影响程度有更好的可解释性。比如客户的年龄与转化率相关性
使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量。分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。我们创建以下合成数据用于演示import pandas as pd # version 1.3.5 impo
最近在处理数据时,需要使用python绘制箱线图。1. 箱线图箱线图(Box-plot)又称为盒式图或箱型图,是一种用来显示一组数据分散情况的统计图,它能显示一组数据的上界、下界、中位数、上下四分位数以及异常值等。四分位数:就是把一组数据按照从小到大的顺序进行排列,然后分成四等份,处于三个分割点位置的数字就是四分位数;第一四分位数(q1):又称“较小四分位数”或“下四分位数”,等于该样本中所有数值
转载 2023-08-20 23:18:12
170阅读
一、整数如: 18、73、84每一个整数都具备如下功能: int二、长整型可能如:2147483649、9223372036854775807每个长整型都具备如下功能: long三、浮点型如:3.14、2.88每个浮点型都具备如下功能: float四、字符串如:'wupeiqi'、'alex'每个字符串都具备如下功能: str注:编码;字符串的乘法;字符串和
转载 2023-05-27 17:20:50
85阅读
写在前面在本系列的第一篇概述中,笔者留了很多个坑没有填。今天这篇我们一起讨论两个话题:为什么要做变量分箱怎么分箱本篇文章多讲思路,少讲数学,不讲代码,但会附上网上的一些代码供参考。想学好机器学习一定要提高自己的信息获取、整合能力,并且多实践。一味做伸手党是没有前途的。为什么分箱我们随便打开一篇网上关于分箱的文章,可以看到这样的描述: 离散特征的增加和减少都很容易,易于模型的快速
# 等距分箱及其在Python中的应用 ## 引言 在数据分析和机器学习中,我们经常需要对连续型变量进行分箱处理,以便更好地理解和挖掘数据。等距分箱是最简单且常用的一种分箱方法之一,它将连续型变量划分为若干个等宽的区间,将原始数据离散化成有限的几个值。本文将介绍等距分箱的原理和在Python中的实现方法,并通过代码示例展示其具体应用。 ## 等距分箱的原理 等距分箱的原理非常简单,即将连续
原创 2023-10-16 09:57:49
120阅读
        当你打开这篇文章,一定是遇到了如下问题场景:        情景1,有一组数据标签,我们希望给数据加一个合理的波动,即认为:属于标签的合理波动。        情景2,有一组数据标签,
如果给出正态分布总体的均值和标准偏差,我们就能通过计算出小于或大于任何值的百分比,将该值与总体中剩余的值对比,那对于样本呢,我们如何将总体中的特定样本与其他样本相比较? □ 通过算出该样本的均值 □ 通过算出总体中其他样本的均值 □ 通过将该样本的均值与其他样本的均值进行对比 所有选项都正,之前我们已经了解到中心值可以描述一组数据,如果我们要对比样本,我们可以对比该样本的中心值
1 BestKS分箱从网上翻了很多BestKS内容,结果发现不同网站不同博主的BestKS代码几乎都是相同的。这里我的代码也参考了资料1(链接在文末)BestKS分箱的基本原理如图1 图1 PS:最近在网上找到的代码都跟参考资料1中的重复。先简单说一下这两个版本的代码(希望代码原作者看到不要生气):简单版:简单版的问题主要在于ks_zone()函数。从这个函数中可以看到,每次是选择
转载 2023-09-27 17:18:04
159阅读
之前介绍了分箱的理论: 本次针对卡方分箱代码进行解释数据集及完整代码:https://github.com/Andyszl/Feature_Engineering/blob/master/卡方分箱.ipynb分箱分箱的定义将连续变量离散化将多状态的离散变量合并成少状态 相近合并分箱的重要性稳定性:避免特征中无意义的波动对评分带来的波动–变量的细微变动引起评分的波动是无意义的健壮性:避免了
转载 2023-08-17 16:51:31
99阅读
# 等宽分箱的实现流程 ## 步骤概览 在实现等宽分箱的过程中,我们需要完成以下几个步骤: 1. 理解等宽分箱的概念和目的。 2. 探索数据集并了解待处理的特征。 3. 计算分箱的边界。 4. 对数据进行分箱。 5. 可选:对分箱结果进行可视化和分析。 下面我们将逐步展开每个步骤,并给出相关的Python代码示例。 ## 1. 理解等宽分箱的概念和目的 等宽分箱是一种特征离散化的方法,
原创 2023-08-11 13:44:24
226阅读
  • 1
  • 2
  • 3
  • 4
  • 5