python 分桶代码 python分箱分类代码

转载

mob64ca13ffd0f1 2023-09-29 21:39:35

文章标签 python 分桶代码 python输出计算结果数据集 ci 数据 文章分类 Python 后端开发

打印分箱结果

eval.eval_feature_detail(Info_Value_list,out_path=False)

输入：

Info_Value_list:存储各变量分箱结果(proc_woe_continuous/discrete的返回值）的List.

out_path:指定的分箱结果存储路径，输出为csv文件

输出：

各变量分箱结果的DataFrame。各列分别包含如下信息：

var_name

变量名

split_list

划分区间

sub_total_sample_num

该区间总样本数

positive_sample_num

该区间正样本数

negative_sample_num

该区间负样本数

sub_total_num_percentage

该区间总占比

positive_rate_in_sub_total

该区间正样本占总正样本比例

woe_list

woe

iv_list

该区间iv

该变量iv(各区间iv之和）

输出结果一个示例（截取部分）：

python 分桶代码 python分箱分类代码_python输出计算结果

woe转换

得到分箱及woe,iv结果后，对原数据进行woe转换，主要用以下函数

woe_trans(dvar,civ): replace the var value with the given woe value

输入：

dvar: 要转换的变量，Series

civ: proc_woe_discrete或proc_woe_discrete输出的分箱woe结果，自定义的InfoValue类

输出：

var: woe转换后的变量，Series

分箱原理

该包中对变量进行分箱的原理类似于二叉决策树，只是决定如何划分的目标函数是iv值。

1）连续变量分箱

首先简要描述分箱主要思想：

1.初始化数据集D =D0为全量数据。转步骤2

2.对于D，将数据按从小到大排序并按数量等分为10份，记录各划分点。计算不进行仍何划分时的iv0，转步骤3.

3.遍历各划分点，计算利用各点进行二分时的iv。

如果最大iv>iv0*(1+alpha)（用户给定，默认0.01）: 则进行划分，且最大iv对应的即确定为此次划分点。它将D划分为左右两个结点，数据集分别为DL, DR.转步骤4.

否则：停止。

4.分别令D=DL,D=DR,重复步骤2.

为了便于理解，上面简化了一些条件。实际划分时还设计到一些限制条件，如不满足会进行区间合并。

主要限制条件有以下2个：

a.每个bin的数量占比>min_sample(用户给定）

b.每个bin的target取值个数>1，即每个bin必须同时包含正负样本。

2）连续变量分箱

对于离散变量分箱后续补充 to be continued...

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：阿里redis 集群 keys 阿里云redis集群版功能限制

下一篇：软件工程架构驱动的软件开发pdf 程序员必读之软件架构 pdf

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 分桶 代码 python分箱分类代码

python 分桶 代码 python分箱分类代码

51CTO博客

python 分桶代码 python分箱分类代码

python 分桶代码 python分箱分类代码