卡方分箱卡方分箱原理数据分析与数据挖掘之四大分布三大检验python自带分箱函数  --  无法实现对分类型数据的分箱,可借助卡方分箱算法实现import numpy as np import pandas as pd data = np.random.randint(100, size=(10000,)) #自定义分箱 #cut(x, bins, right=True,
转载 2023-06-12 20:46:17
423阅读
个人观点,信贷行业中,模型稳定性往往比模型效果更重要。信贷行业所做的任何规则、政策、模型的调整,都需要较长时间才能知道结果如何,模型迭代周期相较于其他行业可能更长,因此一个模型的稳定性至关重要。当然在模型迭代周期较短的场景下,可以去追求更好的模型效果,比如有些反欺诈场景,模型模型迭代快,模型可以快速及时调整。但对于大多数其他情况,无论是做评分卡还是机器学习,个人在实践中会为了稳定性牺牲掉一些效果。
解决的问题: 1、实现了二分类的卡方分箱; 2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。 1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展: 1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。 2、需要实现更多分类的卡方分箱算法; 具体代码如下:# -
# Python 分箱代码实现 ## 1. 整体流程 下面的表格展示了实现Python分箱代码的整体流程: | 步骤 | 描述 | | --- | --- | | 步骤1 | 准备数据 | | 步骤2 | 数据预处理 | | 步骤3 | 分箱操作 | | 步骤4 | 分析箱子结果 | | 步骤5 | 结果可视化 | 在接下来的文章中,我将逐步介绍每个步骤的具体实现方法和所需代码。 ##
原创 2023-08-22 08:02:35
219阅读
解决的问题:1、实现了二分类的卡方分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡方分箱算法;具体代码如下:# -*- coding:
什么是分箱?简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件什么样式的数据要进行分箱数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。为什么要对数据进行分箱操作稳定性,时间复杂度,看的舒服,提高准确度 等等分箱分为 有监督和无监督先说有监督,意思就是 个人确定范围区间 
转载 2023-09-19 11:01:51
64阅读
使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量。分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。我们创建以下合成数据用于演示import pandas as pd # version 1.3.5 impo
什么叫分箱?连续变量的离散化处理。例如年龄:从1、2、3、4……100变成“1~20”、“21~30”差不多这个样子。问题场景(为什么要分箱):不论是做业务分析还是建模前的特征工程,经常会遇到一个问题,连续变量需要分箱。且分箱会有一个诉求:分出来的组,对于目标指标(比如转化率)差异最大。业务分析中这样做的目的在于:一些连续变量对于最终结果指标的影响程度有更好的可解释性。比如客户的年龄与转化率相关性
如果给出正态分布总体的均值和标准偏差,我们就能通过计算出小于或大于任何值的百分比,将该值与总体中剩余的值对比,那对于样本呢,我们如何将总体中的特定样本与其他样本相比较? □ 通过算出该样本的均值 □ 通过算出总体中其他样本的均值 □ 通过将该样本的均值与其他样本的均值进行对比 所有选项都正,之前我们已经了解到中心值可以描述一组数据,如果我们要对比样本,我们可以对比该样本的中心值
# 等距分箱及其在Python中的应用 ## 引言 在数据分析和机器学习中,我们经常需要对连续型变量进行分箱处理,以便更好地理解和挖掘数据。等距分箱是最简单且常用的一种分箱方法之一,它将连续型变量划分为若干个等宽的区间,将原始数据离散化成有限的几个值。本文将介绍等距分箱的原理和在Python中的实现方法,并通过代码示例展示其具体应用。 ## 等距分箱的原理 等距分箱的原理非常简单,即将连续
原创 2023-10-16 09:57:49
120阅读
        当你打开这篇文章,一定是遇到了如下问题场景:        情景1,有一组数据标签,我们希望给数据加一个合理的波动,即认为:属于标签的合理波动。        情景2,有一组数据标签,
之前介绍了分箱的理论: 本次针对卡方分箱代码进行解释数据集及完整代码:https://github.com/Andyszl/Feature_Engineering/blob/master/卡方分箱.ipynb分箱分箱的定义将连续变量离散化将多状态的离散变量合并成少状态 相近合并分箱的重要性稳定性:避免特征中无意义的波动对评分带来的波动–变量的细微变动引起评分的波动是无意义的健壮性:避免了
转载 2023-08-17 16:51:31
99阅读
1 BestKS分箱从网上翻了很多BestKS内容,结果发现不同网站不同博主的BestKS代码几乎都是相同的。这里我的代码也参考了资料1(链接在文末)BestKS分箱的基本原理如图1 图1 PS:最近在网上找到的代码都跟参考资料1中的重复。先简单说一下这两个版本的代码(希望代码原作者看到不要生气):简单版:简单版的问题主要在于ks_zone()函数。从这个函数中可以看到,每次是选择
转载 2023-09-27 17:18:04
159阅读
# 等宽分箱的实现流程 ## 步骤概览 在实现等宽分箱的过程中,我们需要完成以下几个步骤: 1. 理解等宽分箱的概念和目的。 2. 探索数据集并了解待处理的特征。 3. 计算分箱的边界。 4. 对数据进行分箱。 5. 可选:对分箱结果进行可视化和分析。 下面我们将逐步展开每个步骤,并给出相关的Python代码示例。 ## 1. 理解等宽分箱的概念和目的 等宽分箱是一种特征离散化的方法,
原创 2023-08-11 13:44:24
223阅读
在数据科学和统计学中,等距分箱是一种常用的数据预处理技术。它通过将连续变量划分为多个区间(箱)来简化数据分析的过程。本文将详细讲解如何在Python中实现等距分箱代码,涵盖从环境准备到排错指南的各个方面。 ### 环境准备 在使用Python实现等距分箱之前,我们需要确保硬件和软件环境的配置支持这一任务。 **软硬件要求**: - 操作系统:支持Python 3.x的操作系统(如Windo
原创 6月前
36阅读
## 什么是WOE分箱 WOE(Weight of Evidence)是一种常用的特征离散化方法,它可以将连续变量转换为离散变量,从而更好地适应建模需求。WOE分箱的主要目的是将原始数据进行分组,使得同一组内的样本具有较为相似的响应概率,而不同组之间的响应概率有较大的差异。通过WOE分箱,我们可以更好地了解自变量对于因变量的影响程度。 关于WOE分箱代码实现一般使用Python编程语言,下面
原创 2023-08-11 16:42:06
418阅读
《数据挖掘与机器学习》复习根据复习阶段遇到的题型列出比较可能考的知识点第1章 绪论这部分基本概念了解即可第2章 数据预处理光滑噪声数据的方法——分箱分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。分箱等深分箱 统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最
# 等距分箱 python cut 代码实现教程 ## 1. 整体流程 下面是实现等距分箱的整体流程,可以使用表格展示步骤: | 步骤 | 操作 | | ---- | ---- | | 1 | 导入必要的库 | | 2 | 读取数据 | | 3 | 计算分箱边界 | | 4 | 对数据进行分箱 | ## 2. 操作步骤 ### 步骤1:导入必要的库 首先,我们需要导入 pandas 库
原创 2024-06-24 04:14:50
48阅读
由于现在的音箱几乎都采用多单元分频段重放的设计方式,所以必须有一种装置,能够将功放送来的全频带音乐信号按需要划分为高音、低音输出或者高音、中音、低音输出,才能跟相应的喇叭单元连接,分频器就是这样的装置。如果把全频带信号不加分配地直接送入高、中、低音单元中去,在单元频响范围之外的那部分“多余信号”会对正常频带内的信号还原产生不利影响,甚至可能使高音、中音单元损坏。 从电路结构来看,分频
# 卡方分箱 Python 代码实现 ## 1. 整体流程 下面是实现卡方分箱的整体流程: | 步骤 | 描述 | | ---- | ---- | | 1 | 数据准备 | | 2 | 数据预处理 | | 3 | 卡方分箱 | | 4 | 检验分箱结果 | | 5 | 分箱后的数据转换 | 接下来,我将逐步介绍每个步骤所需要做的事情以及相应的代码。 ## 2. 数据准备 在进行卡方分箱
原创 2023-10-11 09:46:40
263阅读
  • 1
  • 2
  • 3
  • 4
  • 5