本发明涉及风控规则的导出技术,尤其涉及一种基于决策树的风控智能规则导出方法及系统。
背景技术:
风控规则在当今社会的大多数互联网和金融公司有广泛的应用价值。多数情况下,风控规则大多数是由相关的业务人员和安全专家根据以往的经验、业务等条件来制定的。这种规则制定周期比较长,无法完全适用于不同的业务系统,即当遇到另一个业务场景时,需要专家再次进行业务分析、决策。这样会给企业带来更大的经济损失和开销成本。传统机器学习算法作为黑盒模型和传统的信用评分卡模型相比通常缺乏解释性,业务人员通常很难追溯模型进行判断的依据和实现逻辑。
技术实现要素:
本发明的目的在于针对技术的不足,基于信息论和决策树模型,提出了一种灵活的风控智能规则导出方法及系统,使风控规则的制定周期缩短,最大限度地降低企业损失。
本发明的目的是通过以下技术方案来实现的:本发明根据采集到的带有标签的数据,来对各个特征的重要程度进行排名,挑选出少量特征,然后对这些特征进行不同数量的组合,每个特征组合可以生成一个决策树,接着对这些决策树进行筛选,最后从剩下的决策树中导出规则。具体的实施步骤如下:
(1)特征筛选:在原始数据中,对样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
(2)组合特征集生成:从步骤(1)得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
(3)特征组合筛选:对每个组合特征集S中的每个特征组合s,使用经典决策树算法ID4.5生成一个决策树;对所有生成的决策树进行筛选,得到筛选后的组合特征集合S′;
(4)规则导出:对于筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
进一步地,所述步骤(1)中,计算样本的每个特征的信息增益,然后根据特征的信息增益的大小,进行降序排序。
进一步地,所述步骤(3)中,对于生成的决策树,使用校验数据来计算该决策树的查准率P和召回率R;若该决策树的P和R分别满足设定阈值,则该决策树的组合特征将被保留,否则,将被舍弃。
一种基于决策树的风控智能规则导出系统,该系统包括:
特征筛选单元:对原始数据样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
组合特征集生成单元:从特征筛选单元筛选得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
特征组合筛选单元:对组合特征集生成单元得到的每个组合特征集S中的每个特征组合s生成一个决策树,筛选决策树,得到筛选后的组合特征集合S′;
规则导出单元:对特征组合筛选单元筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
本发明的有益效果是:本发明根据特征的重要性,对其巨量特征进行排序,筛选出一定数量的最重要特征,基于这些特征,建立不同深度的决策树,然后使用设定好的阈值对决策进行筛选,最后根据筛选后的决策树导出规则。决策树作为一类可视化比较便捷的模型,可以方便地将树到叶子节点的每条路径导出成规则,从而提供良好的解释性。本发明首先从特征筛选到规则抽取至一整套流程,都是完全自动化的;其次特征集合的大小可以由用户灵活设置,重要特征选取数量、决策树的最大深度以及阈值的大小都可以由用户随时调整,十分灵活。本发明可用于在涉及的系统业务复杂、人类经验不够的情况下,进行有效的风控规则制定。
附图说明
图1为单判断节点的决策树,(a)银行卡类型,(b)手机号归属地分类,(c)当前交易金额大小分类;
图2为对特征组合(银行卡类型,手机号归属地分类)进行建树。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供的一种风控智能规则导出方法,包括以下步骤:
(1)特征筛选:在原始数据中,计算样本的每个特征的信息增益,然后根据特征的信息增益的大小,进行降序排序,选取前n个信息增益最大的特征作为特征集合。
(2)组合特征集生成:从步骤(1)得到的特征集合中,随机挑选d个特征进行组合。对于固定的d,总共可得到个特征组合,构成一个组合特征集S;令M表示d的最大取值,因此可得到个特征组合,共得到M个组合特征集S;M根据业务解释需求而定的,根据经验,一般的规则可能最多只有5~6个条件,再多解释性就会比较差;
(3)特征组合筛选:令s∈S,对S中的每个特征组合s,使用经典决策树算法ID4.5生成一个决策树,使用校验数据来计算该决策树的查准率P和召回率R,然后计算若该决策树的P和R分别满足设定阈值,则该决策树的组合特征将被保留,否则,将被舍弃。最终得到筛选后的组合特征集合S′;这里的阈值根据业务场景具体而定。
(4)规则导出:对于筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
本发明提供的一种基于决策树的风控智能规则导出系统,该系统包括:
特征筛选单元:对原始数据样本的每个特征的重要程度进行降序排序,选取前n个特征,作为特征集合;
组合特征集生成单元:从特征筛选单元筛选得到的特征集合中,挑选d个特征进行组合,得到个特征组合,构成一个组合特征集S;不断变换d,d取1到M,共得到M个组合特征集S;
特征组合筛选单元:对组合特征集生成单元得到的每个组合特征集S中的每个特征组合s生成一个决策树,对决策树进行筛选,得到筛选后的组合特征集合S′;
规则导出单元:对特征组合筛选单元筛选后的组合特征集合S′中的每个特征组合s对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则,进行导出。
实施例
示例数据如表1所示,当前属性集合是{身份证归属地归类,手机号归属地分类,身份证年龄段,银行卡类型,当前交易金额大小分类,性别};
表1:交易数据示例
1.分别计算各个属性的信息增益:
Gain(D,身份证归属地分类)=0.109;
Gain(D,手机号归属地分类)=0.143;
Gain(D,身份证年龄段)=0.141;
Gain(D,银行卡类型)=0.381;
Gain(D,当前交易金额大小分类)=0.289;
Gain(D,性别)=0.006;
因此对属性排序的结果是:{银行卡类型,当前交易金额大小分类,手机号归属地分类,身份证年龄段,身份证归属地分类,性别}。挑选前3个属性,即n=3,作为特征集合:{银行卡类型,当前交易金额大小分类,手机号归属地分类};
2.令d={1,2},可得到两个组合特征集:
C(n,1)={银行卡类型,当前交易金额大小分类,手机号归属地分类}
C(n,2)={(银行卡类型,当前交易金额大小分类),(银行卡类型,手机号归属地分类),(当前交易金额大小分类,手机号归属地分类)}
3.对两个组合特征集的每个组合特征分别建树。图1和图2是对部分组合特征建树的结果。决策树建立之后,使用验证数据集对每颗决策树进行筛选。这里使用F1-score对决策树的性能进行分层度量。假设F1-score的阈值如下:
C(n,1):F1>0.5
C(n,2):F1>0.6
4.对于筛选后的每个特征组合对应的决策树,找出从根节点到每一个叶子节点的所有路径,每个路径作为一个规则进行导出。导出的规则示例如下: