计算KS Python

原创

mob649e81543e41 2023-07-23 08:03:13 ©著作权

文章标签 python Python 数据 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81543e41的原创作品，请联系作者获取转载授权，否则将追究法律责任

计算KS值的Python实现

概述

在金融领域的风控模型评估中，KS值常常被用来评估模型的区分度。KS值是一种常见的评估指标，用于衡量模型在正负样本之间的区分度。本文将介绍如何使用Python计算KS值。

流程

下面是计算KS值的整体流程：

步骤	描述
1	准备数据：包括预测概率和真实标签
2	根据预测概率和真实标签计算累计分布函数
3	计算KS值

代码实现

步骤1：准备数据

首先，我们需要准备数据，包括预测概率和真实标签。假设我们已经有了一个名为predictions的预测概率列表和一个名为labels的真实标签列表。

predictions = [0.2, 0.4, 0.6, 0.8, 0.3, 0.5]
labels = [0, 1, 1, 0, 1, 0]

步骤2：计算累计分布函数

累计分布函数是计算KS值的关键。根据预测概率和真实标签，我们需要计算正样本和负样本的累计分布函数。

# 将预测概率和真实标签按照预测概率的升序排序
sorted_idx = sorted(range(len(predictions)), key=lambda k: predictions[k])
sorted_labels = [labels[i] for i in sorted_idx]

# 计算正负样本的累计分布函数
cum_positive = [0]
cum_negative = [0]
for i in range(len(sorted_labels)):
    if sorted_labels[i] == 1:
        cum_positive.append(cum_positive[i] + 1)
        cum_negative.append(cum_negative[i])
    else:
        cum_positive.append(cum_positive[i])
        cum_negative.append(cum_negative[i] + 1)

步骤3：计算KS值

KS值是正样本累计分布函数与负样本累计分布函数之差的最大值。我们可以通过计算累计分布函数的差值，再找到最大差值来得到KS值。

# 计算KS值
ks = max([p - n for p, n in zip(cum_positive, cum_negative)])

至此，我们已经完成了整个计算KS值的流程。

完整代码示例

predictions = [0.2, 0.4, 0.6, 0.8, 0.3, 0.5]
labels = [0, 1, 1, 0, 1, 0]

# 将预测概率和真实标签按照预测概率的升序排序
sorted_idx = sorted(range(len(predictions)), key=lambda k: predictions[k])
sorted_labels = [labels[i] for i in sorted_idx]

# 计算正负样本的累计分布函数
cum_positive = [0]
cum_negative = [0]
for i in range(len(sorted_labels)):
    if sorted_labels[i] == 1:
        cum_positive.append(cum_positive[i] + 1)
        cum_negative.append(cum_negative[i])
    else:
        cum_positive.append(cum_positive[i])
        cum_negative.append(cum_negative[i] + 1)

# 计算KS值
ks = max([p - n for p, n in zip(cum_positive, cum_negative)])

print("KS值：", ks)

以上就是计算KS值的Python实现的详细步骤和相应的代码。通过计算KS值，我们能够评估模型的区分度，从而对模型进行进一步的优化和改进。