最近在录视频又要写文字又要搬砖,样样兼顾如果文章质量下滑,多多包涵

昨天跟知识星球里的同学交流,之前文章里出现的一个催收策略的问题。提的都是好问题,一个个递进,如果把这些问题搞清楚了,也就弄明白策略设置的原理了:

java 脱敏是什么意思_数据源

  1. 为什么对照组是50%的量?测试组1跟测试组为什么分别是20%跟30%吧?
    2.为什么测试组里一组是20%一组30%,而不是25%和25%呢?
    3.高中低风险都会用同一套策略吗?
    4.实际业务中,冠军挑战者也是高中低同一套策略吗,还是会区分?

一般来说对照组都会保留原先的策略,而测试组是用来跟对照组比对策略优劣程度的,属于冠军挑战者的一种方法。所以测试的都只用占比较少的客户做测试比对,万一测试的策略不好也不用担心会影响到实际的业务数据。可以理解为测试都是在小范围进行调试.这个回答了问题1跟2。

在每个风险等级里,你会看到策略的强到弱的趋势分别是:对照组>测试组2>测试组1。所以你可以看到从占比上看,我们都是希望从强到弱进行优化,所以策略最强的占比都是最高,中间的次之,最弱的占比最少。我们最后比较的只是每一组的回收率,如果测试组的回收率比对照组的高,证明策略就是有效的。这个回答问题3跟4。

仔细看一下策略里面的内容,其实是很不一样的。比如高风险里的对照组直接就是用最强的策略手工外呼,低风险的对照组的策略用的是自动外呼。

所以也可以知道,风险等级越高,用的策略就应该最强。策略强度随风险高低,依次递减。

在策略里除了贷后策略,风控里相对重要需要部署的还有贷前策略,而且目前大部分采用决策引擎部署的。

决策引擎是一种if-else的条件判断,在很早之前车、马、邮件都慢的年代,用单纯这件条件判断就够了。一个或几个逻辑判断,就能够保证清楚是否满足条件,比如判断你是有房或者没房,或者男性或者女性就可以,确实没有必要使用规则引擎,if-else 或者硬编码 可以更好地满足我们的需求。

然后随着黑产和羊毛的日益猖獗,目前的决策引擎部署的条件规则越来越复杂。业务规则往往是一个庞大且不断变化的规则组合,这使得系统非常复杂,如果只是使用常规代码,则会产生大量的维护工作:

java 脱敏是什么意思_数据源_02


以拍X贷为例,查询一位有效人的记录,就需要关联到1000个数据源…什么航空、出行、消费、黑名单…虽然前期加上获客成本,一个用户的成本就去到4到5百元,但数据多多益善,有的统统抓来。

目前市场上主流的决策引擎是fico、益博睿…,他们还可以支持定制开发,不过收费都不便宜。我看到有些公司自己IT开发能力强的,也有自己开发的。

规则引擎应用场景:
1.流程分支非常复杂,规则变量庞大,常规编码(if-else)难以实现
2.有不确定性的需求,变更频率较高
3.需要快速做出响应和决策
4.规则变更期望脱离于开发人员,脱离coding

关于目前的引擎的情况:
目前,所有的引擎规则大致可以分为强规则跟弱规则,然后这些规则之间或串行或并行,汇总成一个个规则包,一般强规则都是碰一个就挂,而弱规则包之间触碰到还是会部分放行,有些还会根据额度矩阵,进行风险等级的划分,再根据具体的情况做调整;但我目前看到的,大部分新产品上线时为了保证通过率,一般都是对触碰到这些弱规则包的人群进行降额;

了解下比如目前某公司的强规则就包括这几方面:

java 脱敏是什么意思_java 脱敏是什么意思_03


(数据脱敏处理)关于优化规则引擎的编码的一些技巧:

曾经见到过,一些最原始的rawdata去做拒绝分析,做起来真心累,因为有时候客户是在一个规则包里被触碰干掉的,所以他在一个拒绝分析里会出现多条拒绝信息,所以有时对某些连中N条强规则的人群,其对应的数据清洗也够你累:

java 脱敏是什么意思_风控_04


针对这种情况,我们对这样的编码规则做了一个优化,尽量将客户的触碰记录全部归结到一条记录里,参考方法如下:

java 脱敏是什么意思_风控_05


当然这个还不是最终优化过的版本,建议最终优化策略是可以采用强变量+弱变量+批核维度三方面的数据结合,来优化策略;关于这部分知识,有兴趣的同学可以上知识星球继续围观讨论。关于某数据源的应用:

对接数据源太多,以最近某公司对接的通话运营商数据的使用为例具体说明。比如dianhuabang,他们家的数据,列出来的数据字段里,大概有这么多:

java 脱敏是什么意思_风控_06

分析这些常用字段,在之前的经验里,比较好用的也就是那么几条,另外对这些的数据源的具体处理技巧,顺带也提供几条比较常用的思路:

1.近期才有通话记录的,证明申请前就在制作通话假象,再远些覆盖不到。这一步也从另一方面增加薅羊毛的成本
2.通话清单里通话号码类似,来来回回通话就那几个人,通话是熟人之间叠加出来的数据
3.客人的深夜行为,如频繁夜间通话。深夜行为是个很有意思的数据,分析客户的深夜的操作信息,有些流水在某些产品还是相当不错的规则。