1.8 评分卡构建的基本原理

1.8.1 建立评分卡的基本方法

本节介绍建立评分卡都需要做的基础准备工作

不管使用什么方法,获得分数的目的都是利用过去潜在和实际贷款申请者的大量信息集,把他们分成银行希望接受的和想要拒绝的两类人(在了解他们以后的行为之后)。在申请评分中,银行采集刚过去一个时间段的样本,包括他们的申请表数据征信局信息,这些加起来通常有 50 到 100 个特征。银行还为样本的每个申请者定义了个二元变量来表示借款人在第一年(或其他时期)里的表现是否令人满意。令人满意和不令人满意相当于好和坏,我们在整本书都在使用,是银行主观决定的。大多数贷款机构倾向于把第一年中出现 99 天(三个月没还款)的账户归为坏账户。其实逾期还有时间或金额上的程度问题是指从上一次任何形式的还款到现在已有 90 天,还是指在 90 天规定的还款金没有交够?2007 年的巴塞尔协议规定违约是指贷款出现 90 天逾期或贷款机构理由认为贷款不会被偿还。还有些其他监管者比如英国金融服务局(Financ Services Authorigy, FSA),采用 180 天逾期的定义。这一般在按揭贷款中更为常见。一些银行视“坏账户”等同违约,而有些银行的“坏账户”比违约要弱些。

此外,还有一个问题,假如补上款欠付金额或结清信用卡余额,坏借款人能否再次变为好?几乎全部的贷款机构都会将此类“治愈的”贷款(cured loan)归为“坏账户”,并将 评分卡模型 逻辑回归 评分卡原理_信贷分析中也会遇到另外一些客户,他们的状态在 12 个月的观测期结束时并不明确,比如那些有 30 天或 60 天但又没到 90 天逾期的人。这些人被分为不确定的一类,并且从随后的任何分析中移除,但会用评分卡对他们评分,以了解全部接受总体的分数分布

1.8.2 拒绝推断

在用过去申请人样本建立申请评分卡时还存在另一个缺陷,即那些过去被拒绝的申请人缺少好坏状态信息。拒绝推断(reject inference)方法试图推断出这个缺失的状态。这样做的理由有两个:

  • 一是试图改善评分卡的判能力
  • 二是为了更准确地估计评分卡在申请人总体的表现而不仅仅是已接受总体上的表现

表面上似乎第一个目的实现起来有一定难度,但第二个目的是理所当然且容易办到的。

我们已有许多方法可以处理这个问题,但是从本质上来讲,每种方法都是对每个已被拒绝的申请者或他们的一部分给出“状态值”,以此增加样本总体的大小

  • 展开法(augmentation)
  • 外推法(extrapolation)
  • 分散打包法(parcelling)
  • 重新加权法(reweighing)
  • 重新分类法(reclassification)

重新分类:当一个被拒绝的申请者具有一些负面特征,比如过去 3 个月有违约(银行一般认为这难以接受),可以把他划分为坏人。

分散打包:根据前面的“状态值”给被拒绝者一个好坏的状态。这个状态是随机的,它是好的概率是 评分卡模型 逻辑回归 评分卡原理_现金贷_02。比如 评分卡模型 逻辑回归 评分卡原理_信贷_03, 那么随机选择状态使被拒者的好人概率是 0.9, 坏人概率是 0.1。
或者也可以加入被拒者的两个复制个体,一个好人,另一个是坏人。如果好人概率 0.9, 那么赋予好人的权重 0.9, 坏人权重 0.1。
还有一种方法是在“状态值”上设定一个临界值,所有低于该值的被拒者归为坏人,而高于此的被拒者归为好人。

重新加权:没有被拒者加入到样本中,但样本中现存的处在相同“状态值”分数段的好坏借款人的权重同比例増加,增加幅度是分数段中被拒者的数量。例如,如果某分数段中有90个好人、10个坏人 以及50个被拒绝者,每个好坏借款人都被予 150/100=1.5 的权重,所以看起来好像该组有 135 个好人和 15 个坏人。

重新加权法中额外加权的个体特征与原始样本相同,而分散打包和重新分类法中新加人的个体样本有被拒者的特征

展开法和外推法是计算“状态值”的方法,这个“状态值”通常是好人的概率

展开法:试图确定被拒绝组和被接受者组中有相同好人概率的人。假设存在统计量 评分卡模型 逻辑回归 评分卡原理_消费贷_04,表示拥有相同 评分卡模型 逻辑回归 评分卡原理_消费贷_04 值的被拒绝者和被接受者有相同的好人概率。数学上可以表示为
评分卡模型 逻辑回归 评分卡原理_现金贷_06

这里 A 是被接受者组,R 是被拒绝者组。我们可以建立“接受/拒绝”评分卡来区分样本中谁被接受谁被拒绝。评分卡模型 逻辑回归 评分卡原理_消费贷_07 是这个评分卡的分数。有时,我们假定被拒绝者组中好人比例只是被接受者组好人比例的一部分,且随 评分卡模型 逻辑回归 评分卡原理_消费贷_07 波动,即
评分卡模型 逻辑回归 评分卡原理_信贷_09

得到这些好人概率之后,我们就可以使用分散打包法或重新加权法来增加本容量。有时建模的人也使用已知借款人好坏状态的案例来建立 KGB 评分算统计量。如果用式 1.8.1 中的假设重新加权来改变样本容量,评分卡完全不会变。改变的只是申请者总体的样本而不是被接受者总体的样本

外推法:依据是存在一些特征 评分卡模型 逻辑回归 评分卡原理_信用_10,在被接受和被拒绝组之间没有任何重叠。然后我们构造函数 评分卡模型 逻辑回归 评分卡原理_评分卡模型 逻辑回归_11,它将好人概率和 评分卡模型 逻辑回归 评分卡原理_消费贷_12 联系起来,评分卡模型 逻辑回归 评分卡原理_消费贷_12 的范围只在被接受者的区域 评分卡模型 逻辑回归 评分卡原理_评分卡模型 逻辑回归_14

评分卡模型 逻辑回归 评分卡原理_信用_15

然后将这个函数外推为,其自变量 评分卡模型 逻辑回归 评分卡原理_消费贷_12 来自被拒绝者区域 评分卡模型 逻辑回归 评分卡原理_信用_17。因此有

评分卡模型 逻辑回归 评分卡原理_信用_18

如果单从统计学而不是经济学的角度来分析,克服该困难最好的办法是接受所有申请者的一个随机样本,然后获得后来对应的状态信息。申请者被选中的概率要确定但非常小。零售商店和邮购公司就是这样做的,但银行很少采用这个策略。图 1.8.1 中的决策树展示了这个策略。

1.8.3 行为评分

在行为评分中,所有借款人的数据都可得。确定样本时,我们要决定应该在哪个时期上观测特征。我们选择过去的某个日期,从该时间点开始观察客户行为表现,这一时期称为表现期,通常是一年。然后作出预测并继续观察一段时间。这称为结果期,通常也是一年。

我们选择大量特征描述一组客户在表现期内的行为。这些特征包括平均余额、期未期初余额比、贷人出交易数量、透支次数和错过还款次数等,同时还有最开始申请时的数据,尽管它们通常远远没有行为数据有用。我们能够很轻松地找到 1000 个可用变量。

此外,不论在申请评分还是在行为评分中,都可用原始变量重新组合构建出新的变量。例如,选择一个使用变量,如信用卡当前余额,与信用额度相除,或者除以可用收入(收入减去应付款项),这样得到的变量可以衡量借款人的还款能力。

而最有用的信息是借款人现在或过去一段时间是否有逾期以及当前征信局的信息。后者通常是通用的征信局评分分数。这些特征用来预测结果期末借款人的状态。我们同样用一个二分类变量来把表现分为好或坏。这里不存在拒绝推断,但有一个更加隐蔽的目前银行还不能满意应对的偏误:政策推断(policy inference)。产生这个偏误的原因是行为和最终状态都取决于具体的经营策略。

例如,如果借款人有很大的信用额度并且银行向他他销售了很多其他产品,他的信用卡余额在不经意间就增加了,此时违约的可能性比只有很低信用额度且每当接近这个额度就收到提醒时可能更高。这个偏误可能会随着定制化的信用产品和个人化的客户关系管理的出现而增加。

1.8.4 数据样本

在申请和行为评分中,申请者/借款人的数据包括他们大量的特征以及最终状态。很多时候,主要的信用卡机构的借款人数量可以超过 100 万,因此我们需要从数据集中筛选样本。我们可以选择用一个随机样本使样本中好坏借款人数量反映总体比率,也可以使用分层抽样来增加坏样本的数量,因为通常坏借款人只占总体非常小的一部分。也有建模的人选择好坏样本数量相等,或是介于 1:1 到总体比率之间的一个固定比率。总体中,坏借款人有时数量太少以至于要把原始数据集中的每个坏借款人都用上。因此抽样通常只在好借款人群体中进行。

同时还确定数据集后,包括拒绝推断所需要扩大的样本,接下来构建评分卡之前,很轻松还有对数据处理的四个步骤:数据校验、删除变量、粗分类和从粗分类中创造新的可用原的变量。

1.8.5 数据检验和整理

数据校验(data validation)是对数据的有效性进行査验,比如没有 150 岁的人,或者没有 21 岁就已持有银行账户超过 30 年的人。发现有特殊情况的,不应该被简单理解用特殊代码如 9999 标记。如果存在缺失数据,规范做法是把它们作为缺失值进行编码,而不是试图估算填入一个实值。虽然这里只用了几句话来讲数据校,但这其实可能是建立评分卡最耗时的步骤,实际建模过程中甚至可能花费大部分时间在数据校验和清理上。用数据字典或数据日志记录从数据集中学到的信息对以后建立评分卡会有很大帮助,但在实践中它的重要性被严重低估。

1.8.6 样本分层

清理数据样本后,就可以开始建立评分系统。首先是决定是否要细分总体并为每部分建立不同的评分卡。例如为 25 岁以下和 25 岁及以上的人各建立一个评分卡,或者为那些高收的人建立一个评分卡,也为低收入的人建立另一个。建立多个评分卡会带来大量额外的工作,所以只在改进预测效果时使用。

样本分层(segmentation)的理由有如下几个:

  • 分层后不同部分的可得信息存在差异
  • 某个特征与其他特征相互关联
  • 分层方法与贷款机构的经营策略相符

不同分层之间的信息差异可能是由可得数据的多少引起的

例如,年轻人的数据通常很有限,他们除了学生货款和透支外不太可能有很多的货款,也基本上不会拥有住房。因此他们的数据只是一份“薄”的文档。年长的人有一份“厚”的文档:他们以往的借贷数据,更加多样化的居住条件等。在其他情况下,有些人的某些特征缺少数据。比如在信用卡的行为评分中,通常有很多特征描述借款人在过去 12 个月的行为,这些信息包括平均余额、信用额度或消费次数。但拥有信用卡还不到 2 个月的人的这些数据是缺失的,因此我们将总体分为持有用卡时间超过或少于 12 个月的两组。另一个例子是如果用借款人的现金或活账户特征来建立款或按揭的评分卡,我们还得为那些没有现金或活期账户建立不同的评分卡。

如果存在高度相关但又有很强预测能力的几个特征变量时,我们可能会想到将这些特征分开单独使用。这能避免同一评分卡的预测变量相互影响,取而代之的是好几个评分卡且每个评分卡都更加简单明了。这在实践中并不多见,通常相关度也没有大到必须要去处理它。建立分类树可以检验此类相互作用关系,然后观察这些特征值在树顶端分又的情况。1.10 节将进一步讨论。

银行也因为要对不同的人采用不同的策略而决定细分样本。比如,相较于低收入人群或老年人,银行可能对高收入人群或年轻人更主动,因为后者有更大的客户寿命价值。建立不同的评分卡并设定合格临界线,会使得交销售和追加销售的促销政策施行起来都更加容易。

1.8.7 训练和检验样本

当确定要建立多少个评分卡并拥有整理好的数据集后,每个细分部分的数据应该被分成两份:一份用来建立评分卡(称为开发或训练样本,development or training sample),另一份用来评估评分卡(称为保留或检验样本,hold- out or testing sample)。两者间的分配比例取决于原始样本大小。但如果数据充足,建模者倾向于把它们按 70:30 的比例来分。建立评分卡的其余步骤只用训练样本的数据。

1.8.8 除特征变量

稳健的评分卡通常有 10-20 个特征变量,而可用的特征远远多于这个数量。于是,下个任务是剔除变量。被剔除的特征要么因为区分好坏借款人的能力偏小,要么因为与其他确定要使用的变量高度相关甚至存在共线性(collinearity),还可能因为它们在时间上不稳定。

要分析前两个状况,我们可以用好坏状态作因变量,几个特征作自变量,然后进行线性回归。在回归方程中,用向前引人或向后剔除的分步回归方法可以确定那些最重要的变量。向前分步(forward stepwise)回归确定最早进人方程的特征变量,向后分步(backward stepwise)回归确定最后留下的特征变量。

另一种测定特征与状态变量间关系强弱的方法是使用单因素关系检验,如卡方信息统计量

有人可能想到用特征值与状态间的相关系数 评分卡模型 逻辑回归 评分卡原理_评分卡模型 逻辑回归_19,而很多个人特征都是分类変量。被转换为二分变量,评分卡模型 逻辑回归 评分卡原理_评分卡模型 逻辑回归_19

当不知道特征属性的最佳排序时,粗分类(coarse classification)可以发挥作用。然而,如果有数百个变量,我们无法全部粗分类,还是要使用线性回归剔除一些变量,直到它们的数量方便进行粗分类

检验时间上的稳定性可以在行为评分的表现期内分析特征变量,或与申请评分时的特征变量进行比较。如果没有发现属性有明显的变化趋势,好坏区分能力在期末期初也変化不大,则表明随着时间的推移,特征变量在评分卡建立和应用上都比较稳定。

1.8.9 特征粗分类

一旦特征的数量减至可操作的水平,对每个留下的特征都使用粗分类能提高稳定性,同时也能处理违约风险和该特征间的非单调关系。在对分类变量进行粗分类时,我们试图把属性分成几类,好坏比率大致相同的属性归在同一类中。

类别数目不能太多,要保证每类中含有总体一定百分比(至少 5%)的样本数量,这能避免计算属性集分数时过大的样本方差。

粗分类既是一门科学也是一门艺术,按照常识归类和根据好坏比率归类同样重要,对序数变量来说要尽量保证每类中包含事实上相邻的属性。像年龄这种连续特征,我们首先得把特征分出10-20个分位点,用序数变量表示,然后再决定邻近的属性是否应该放到同一类中

1.8.10 卡方和信息统计量

1.8.11 粗分类生成新变量

1.8.12 评分卡最终形成和检验