python分装函数 python 分箱函数

转载

mob64ca140761a4 2023-08-25 23:49:38

文章标签 python分装函数机器学习数据 ci 代码实现 文章分类 Python 后端开发

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、分箱思路
二、使用步骤

1.引入库
2.分箱代码实现

3、计算各箱的WOE并映射到数据中

前言

python分装函数 python 分箱函数_python分装函数

python分装函数 python 分箱函数_python分装函数_02

python分装函数 python 分箱函数_代码实现_03

python分装函数 python 分箱函数_ci_04

提示：以下是本篇文章正文内容

一、分箱思路

算法思路

python分装函数 python 分箱函数_数据_05

二、使用步骤

1.引入库

代码如下（示例）：

import matplotlib.pyplot as plt
import scipy

2.分箱代码实现

代码如下（示例）：

def graphforbestbin(DF, X, Y, n=5,q=20,graph=True):
    """
    自动最优分箱函数，基于卡方检验的分箱，输入的是箱子的个数，返回的结果是每个特征对应的分箱的临界值的数据bins
    参数：
    DF: 需要输入的数据
    X: 需要分箱的列名
    Y: 分箱数据对应的标签 Y 列名
    n: 保留分箱个数
    q: 初始分箱的个数
    graph: 是否要画出IV图像
    区间为前开后闭 (]
    """
    DF = DF[[X,Y]].copy()
    #bins表示所有的箱子上下限，按照从小到大排列， DF["qcut"]这一列表示分到的标签
    DF["qcut"],bins = pd.qcut(DF[X], retbins=True, q=q,duplicates="drop")
    coount_y0 = DF.loc[DF[Y]==0].groupby(by="qcut").count()[Y]
    coount_y1 = DF.loc[DF[Y]==1].groupby(by="qcut").count()[Y]
    #构造num_bins[()]
    num_bins = [*zip(bins,bins[1:],coount_y0,coount_y1)]
    
    
    #保证每个箱体都有正负样本
    for i in range(q):
        #如果第一箱子中有正样本或者负样本个数为0，则进行1,2箱合并
        if 0 in num_bins[0][2:]:
            num_bins[0:2] = [(
                num_bins[0][0],
                num_bins[1][1],
                num_bins[0][2]+num_bins[1][2],
                num_bins[0][3]+num_bins[1][3])]
            continue#因为合并了之后还有可能第一箱存在正样本或者负样本个数为0，所以使用continue
        #检查其他箱体中存在正样本或者负样本个数为0，如果存在就进行合并
        for i in range(len(num_bins)):
            if 0 in num_bins[i][2:]:
                num_bins[i-1:i+1] = [(
                    num_bins[i-1][0],
                    num_bins[i][1],
                    num_bins[i-1][2]+num_bins[i][2],
                    num_bins[i-1][3]+num_bins[i][3])]
                break#这个break，只有在if被满足的条件下才会被触发也就是说，只有发生了合并，
                #才会打断for i in range(len(num_bins))这个循环,一旦if被触发，即一旦合并发生，我们就让循环被破坏，使用break跳出当前循环
        else:#如果对第一组和对后面所有组的判断中，都没有进入if去合并，则提前结束所有的循环
            break
    def get_woe(num_bins):
        #定义求woe的函数
        columns = ["min","max","count_0","count_1"]
        df = pd.DataFrame(num_bins,columns=columns)
        df["total"] = df.count_0 + df.count_1
        df["percentage"] = df.total / df.total.sum()
        df["bad_rate"] = df.count_1 / df.total
        df["good%"] = df.count_0/df.count_0.sum()
        df["bad%"] = df.count_1/df.count_1.sum()
        df["woe"] = np.log(df["good%"] / df["bad%"])
        return df
    
    def get_iv(df):
        #定义求IV的函数
        rate = df["good%"] - df["bad%"]
        iv = np.sum(rate * df.woe)
        return iv
    IV = []
    axisx = []
    #合并箱体指直到箱子个数小于n
    while len(num_bins) > n:
        pvs = []
        #通过for循环计算相邻两个箱体之间的卡方值，并存方到pvs列表中
        for i in range(len(num_bins)-1):
            x1 = num_bins[i][2:]
            x2 = num_bins[i+1][2:]
            pv = scipy.stats.chi2_contingency([x1,x2])[1]
            pvs.append(pv)
        #此段代码是合并p值最大的两个箱体
        i = pvs.index(max(pvs))
        num_bins[i:i+2] = [(
            num_bins[i][0],
            num_bins[i+1][1],
            num_bins[i][2]+num_bins[i+1][2],
            num_bins[i][3]+num_bins[i+1][3])]
        bins_df = pd.DataFrame(get_woe(num_bins))
        axisx.append(len(num_bins))#把合并分箱后的箱子个数放到axisx中
        IV.append(get_iv(bins_df))#计算每次合并分箱后的的IV值
    #是否进行画图，来观察IV值，表示特征对模型贡献的大小
    if graph:
        plt.figure()
        plt.plot(axisx,IV)
        plt.xticks(axisx)
        plt.xlabel("number of box")
        plt.ylabel("IV")
        plt.show()
    
    return bins_df
        
    
graphforbestbin(model_data, 'age', 'SeriousDlqin2yrs')

不是所有的特征都可以使用这个分箱函数，比如说有的特征，像家人数量，就无法分出20组。于是我们将可以分箱的特征放出来单独分组，不能自动分箱的变量自己观察然后手写。

#可以自动分箱的属性特征，对应的箱子个数
auto_col_bins = {"RevolvingUtilizationOfUnsecuredLines":6,
				"age":5,
				"DebtRatio":4,
				"MonthlyIncome":3,
				"NumberOfOpenCreditLinesAndLoans":5}
#不能使用自动分箱的变量
hand_bins = {"NumberOfTime30-59DaysPastDueNotWorse":[0,1,2,13]
			,"NumberOfTimes90DaysLate":[0,1,2,17]
			,"NumberRealEstateLoansOrLines":[0,1,2,4,54]
			,"NumberOfTime60-89DaysPastDueNotWorse":[0,1,2,8]
			,"NumberOfDependents":[0,1,2,3]}
#保证区间覆盖使用np.inf替换最大值，用-np.inf替换最小值
hand_bins = {k:[-np.inf,*v[:-1],np.inf] for k,v in hand_bins.items()}
# 接下来对所有特征按照选择的箱体个数和手写的分箱范围进行分箱

bins_of_col = {}
# 生成自动分箱的分箱区间和分箱后的 IV 值
for col in auto_col_bins:
    bins_df = graphforbestbin(model_data,col
                            ,"SeriousDlqin2yrs"
                            ,n=auto_col_bins[col]
                            #使用字典的性质来取出每个特征所对应的箱的数量
                            ,q=20
                            ,graph=False)
    #合并每个箱体分界值的最小最大，并且去重排序
    bins_list = sorted(set(bins_df["min"]).union(bins_df["max"]))
    #保证区间覆盖使用 np.inf 替换最大值 -np.inf 替换最小值
    bins_list[0],bins_list[-1] = -np.inf,np.inf
    bins_of_col[col] = bins_list
    
 #合并手动分箱数据
bins_of_col.update(hand_bins)   
bins_of_col

python分装函数 python 分箱函数_ci_06

3、计算各箱的WOE并映射到数据中

def get_woe(df,col,y,bins):
    '''
	获取每个箱子对应的woe值
	df数据集
	col要分箱的列
	bins分箱的临界值分界点集合
	'''
    df = df[[col,y]].copy()
    df["cut"] = pd.cut(df[col],bins)
    bins_df = df.groupby("cut")[y].value_counts().unstack()
    woe = bins_df["woe"] = np.log((bins_df[0]/bins_df[0].sum())/(bins_df[1]/bins_df[1].sum()))
    return woe
woeall = {}
for col in bins_of_col:
    woeall[col] = get_woe(model_data,col,"SeriousDlqin2yrs",bins_of_col[col])
woeall

#对所有特征操作替换成woe值：
model_woe = pd.DataFrame(index=model_data.index)
for col in bins_of_col:
    model_woe[col] = pd.cut(model_data[col],bins_of_col[col]).map(woeall[col])
#将标签补充到数据中
model_woe["SeriousDlqin2yrs"] = model_data["SeriousDlqin2yrs"]
#至此自定义分箱函数分箱完毕

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。