随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精细化运营及精准营销服务,进而深入挖掘潜在的商业价值。于是,用户画像的概念也就应运而生。

做好了标签可以实现精准化营销和推送;在信贷行业,有了标签体系不仅可以帮我们实现客户分群,实现风险把控。业内,我们除了模型也一直在想方设法构建客群的标签体系,关于风险相关的标签情况,之前在风控风控往期的内容中也有跟大家介绍,今天我们再来谈谈相关内容。

一.系统功能架构

首先一个完整的标签体系,用户画像及应用项目包括底层数据源采集和存储、画像标签模型构建、数据模型应用三个层级,系统功能架构如下:


标签存储架构 标签系统架构_风控

二.模型架构

画像标签模型分析主要分原始数据统计分析、统计标签建模分析、模型标签预测分析三块,具体如下:


标签存储架构 标签系统架构_大数据_02

三.用户画像模型
用户画像模型是结合用户基本属性分析,对互联网行为特征进行描述,包括用户登录、搜索、关注、消费等各方面数据,在信贷风控的全流程中,我们就会除了会判断客户的档案信息也更会参考他的征信情况、还款行为、催收数据,以标签方式展示每个用户的个性化特征,画像是系统分析结果的总结,是系统数据挖掘的起始。目前在画像中所用到的一些分析方法如下:
聚类分析
聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在用户研究中,很多问题可以借助聚类分析来解决,比如用户活跃度行为聚类、用户消费情况聚类等.
分类算法
分类是按照某种标准给用户贴标签,再根据标签来区分归类,分类是事先定义好类别,类别数不变.根据用户群的文化观念,订单消费、行为习惯等不同细分新的类别,企业根据用户的不同制定品牌推广战略和营销策略,将资源针对目标用户集中使用.
时间序列分析
时间序列分析是一种动态的数据统计方法.该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题.比如用户的周期性行为分析、因子回归分析建模等.
RFM模型
RFM模型较为动态地显示一个用户的全部轮廓,R表示用户购买的时间有多远,F表示用户在时间内购买的次数,M表示用户在时间内购买的金额,加权得到RFM得分.
推荐系统算法
利用用户的一些行为,通过一些算法(协同过滤、LFM、打分模型、关联分析等),推测出用户可能喜欢的东西.推荐讲究准确性,提高用户-内容(订单、知识等)等组合的匹配度,提升服务质量.
关联分析
关联分析就是在关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,挖掘潜在的行为和消费关联特征.

四.贷款属性标签

因为篇幅有限,本文稍微列出跟风险标签稍微相关的贷款情况的标签内容,另外还有更详细的档案情况跟贷后表现数据标签,请参考知识星球上的内容:


标签存储架构 标签系统架构_数据_03

还有关于标签的相关的图表、热力图、词云就不做过多展示:


标签存储架构 标签系统架构_人工智能_04


标签存储架构 标签系统架构_数据_05

以上说的各种高大上的标签体系的内容,相信各位童鞋多多少少都会遇到,但并不一定适合各位金融机构,特别是因为个人隐私保护,许多方面的标签内容早已获取不到。特别是在金融科技助贷等场景中,许多助贷的业务中标签的确实是常见的现象。
这种情况下,我们常常借助三方数据的标签标识,来获取相关的数据从而协助我们建模。

五.常见的一些三方数据返回的标签数据

比如在助贷类公司A与资金类公司B在合作过程中,A公司常常需要对B公司要求返回的用户群体进行风控筛选,这里的风险筛选工作其中一个工作便是建模。但B公司常规上,不会返回相关的标签给到A。于是A公司如何在缺乏数据标签情况下建模呢?

常常用的一个方法就是调取第三方数据厂商,希望返回类催收数据作为Y标签。什么是类催收数据,就是跟催收相似的数据。比如催收次数、催收时长、催收等,具体的类催收数据可以参考:

标签存储架构 标签系统架构_数据_06

使用类催收数据的逻辑是,客户是因为表现不好才会进入到贷后催收,所以才有跟贷后相关的数据。
最后A公司决定使用催收次数作为相关标签进行定义,该数据标签也是很明显的数值。那我们就可以根据具体的业务情况,把这个客户在最近1个月内被催收了10次,把这个客户定义为坏客户。
解决了用什么样的数据去定义标签是一个非常重要的问题,随之,又伴随着另一个问题就是如何怎么选取客户样本?
假设根据B公司的使用情况来分析,B公司一个月调用的数据量在十万+的数量级的用户,因为存在数据成本调用,总不能所有的数据都来调用。常规上,大家想到的是随机抽取的方法,将样本压缩在1万条左右。
因随机抽取是可以将成本大幅降低了,但因为抽取过程中,会将B公司调用样本的过程中,拒绝的客户也抽取到。假设B公司的拒绝量达到90%左右,那也就是说,我们抽取的客户数,有很大一部分是混淆着拒绝客户的。在模型里有个概念:拒绝的坏跟进件后逾期的坏客群是不一样的坏,这得分属两种不同的范畴。
拒绝掉的客群,肯定是黑名单或者某些准入的关系被拒之门外的。所以这部分客群被拒是跟政策或者欺诈类相关的。在风控系统里,最外层的也是拒绝规则。客户准入后,又是因为信用情况烂掉被归为坏的,又属于信用风险的范畴。这是两类不同的风险。
所以在抽取中,我们需要在自己的业务系统跑完通用的规则如黑名单库、准入规则再进行抽取,这样总比随机抽取的客群来的好。后续便是用用这波客群进入贷后再去查询相关的贷后数据。之后便是计算模型验证指标,后续持续滚动模型,再去纠正之前的数据情况不断建立模型,监控模型效果,一直迭代模型直到最优。

以上内容参考:
①第80期课程信贷风控也要学|智能推荐系统的应用
②第49期课程《 策略分析之数据监控与用户标签画像》

~原创文章