逻辑回归 python woe

原创

mob64ca12d2dee8 2024-04-15 06:25:25 ©著作权

文章标签 数据集 python 机器学习算法 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d2dee8的原创作品，请联系作者获取转载授权，否则将追究法律责任

逻辑回归与WOE（Weight of Evidence）在Python中的应用

逻辑回归（Logistic Regression）是一种用于解决分类问题的机器学习算法，它可以用来预测二元变量的结果（比如是/否、成功/失败等）。而WOE（Weight of Evidence）是一种用于评估自变量与因变量之间关系的指标，常用于信用评分卡模型中。

在本文中，我们将介绍如何在Python中使用逻辑回归和WOE来构建一个分类模型，并将其应用于一个实际的数据集中。

逻辑回归

逻辑回归是一种广泛应用于分类问题的线性模型。其基本思想是通过一个sigmoid函数将线性回归的输出映射到0和1之间，从而得到分类的概率。

import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 读取数据
data = pd.read_csv('data.csv')

# 划分训练集和测试集
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

WOE

WOE是一种用于评估自变量与因变量之间关系的指标，它的计算公式如下：

$$WOE = ln(\frac{good%}{bad%})$$

其中，$good%$表示某个分组中好样本的占比，$bad%$表示坏样本的占比。

def calculate_woe(df, feature, target):
    df = df.copy()
    df['target'] = df[target]
    df[feature + '_bin'] = pd.qcut(df[feature], q=10, duplicates='drop')
    grouped = df.groupby(feature + '_bin')['target'].agg(['sum', 'count'])
    grouped['bad_rate'] = grouped['sum'] / grouped['count']
    grouped['good_rate'] = 1 - grouped['bad_rate']
    grouped['woe'] = np.log(grouped['good_rate'] / grouped['bad_rate'])
    return grouped['woe'].to_dict()

woe_values = calculate_woe(data, 'feature', 'target')
print(woe_values)

应用于实际数据集

我们将使用一个名为credit_data.csv的数据集来演示逻辑回归和WOE的应用。这个数据集包含了客户的信用信息以及他们的信用违约情况。

首先，我们读取数据并计算每个特征的WOE值：

data = pd.read_csv('credit_data.csv')

woe_values = {}
for feature in data.columns[:-1]:
    woe_values[feature] = calculate_woe(data, feature, 'target')

接下来，我们将原始特征转换为WOE值：

def transform_to_woe(df, woe_values):
    for feature, woe_map in woe_values.items():
        df[feature + '_woe'] = df[feature].map(woe_map)
        df.drop(feature, axis=1, inplace=True)
    return df

data = transform_to_woe(data, woe_values)

最后，我们使用逻辑回归模型对数据集进行训练和预测：

X = data.drop('target', axis=1)
y = data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

通过以上步骤，我们成功构建了一个基于逻辑回归和WOE的分类模型，并对信用数据集进行了分类预测。