目录
一:了解信贷风险:
1: 了解信贷业务:
- 1: 如何获利?通过放款收回本金和利息,扣除成本后获得利润
- 2:信贷如何把控?贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户。
2:了解信贷业务中的风险控制:
问题一: 你了解的信贷吗?
答:信贷业务中,使用信用来预支金钱,在小额贷业务中往往没有抵押物,那么贷款方就会承担一定风险(用户不还钱)
问题二:说说啥叫风控?
答:风控就是对用户的信用风险进行管理与规避,对于预测信用较差的人,不向其放款,即便放款,也会是较小的贷款额度和较高的利率。
问题三:你了解信贷领域有哪些风险?
答:1:信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险(想还还不上)
2:欺诈风险:压根不想还钱,以欺诈为目的。
问题四:风控中如何针对这两类风险?
答:信用风险—信用评分系统。欺诈风险—反欺诈系统。
问题五:机器学习的风控模型与传统的人工审批的区别?
人工审批:效率低,对业务员的要求高。
机器学习模型:批量,迅速,准确,同时处理大量的请求。
二:信贷产品与风险?
2.1:说说你知道哪些信贷产品?
2.2:说说上面的信贷产品都有哪些风险?
1:现金贷
对于银行的风险比较高,利润的来源主要是利息。
2:消费贷:
消费贷的利润来源:1:商家的提成。 2:超期利息。
常见的风险?
三:风控常见的术语:
- 1: DPD : 逾期天数 DPD1:逾期一天, DPD2:逾期两天, DPD3: 逾期三天。
- 2:FDP: 首次逾期天数
- 3:M1 : 逾期一个月以内。
- 4:M1+: 逾期一个月以上。
- 5:default : 坏账。
- 6:delinquency : [dɪˈlɪŋkwənsi] 拖欠:
- 7:flow rate: 流动率:
- 8:bad rate: 坏账率:
- 9:vintage: 账龄分析:[ˈvɪntɪdʒ]
四:信贷审批业务的基本流程:
- 1:信贷业务的四要素:银行卡姓名,身份证号,姓名,手机号。
- 2:除此之外,学历信息,贷款信息等。
1:审核过程:
首先用户注册,然后审核用户的四要素是否正确,然后授信与定价,也就是会给一个额度(这个额度不一定就是最终的额度,不一定申请下来),然后进入审批过程。
审批过程首先经过反欺诈引擎,看看该用户是否在别的平台的黑名单中。然后进入信用评估引擎,也就是看看给用户是否在失信名单中,法院的自信名单中,以及银行的条件限制等等,如果在审核不通过。然后进入申请评分卡中(A卡),他会将用户的信息,转化成一个信用卡的评分。最后经过人工审核,审核通过/不通过。
2: 再次审批流程:
用户可能申请没有通过,他经过一段时间后还可以再次申请,用户如果申请成功,不使用我们的消费额度,则我们的用户就流失了。
3:给用户放款后没有逾期的流程:
用户提款后按时还款,如果用户不用了,则表示用户流失,如果用户继续使用,则再次放贷,进入复贷审批流程:
同样类似审核过程,只不过此时我们有了用户的行为信息(历史贷款信息),此时我们会有行为评分卡,会评估我们历史贷款信息,如果按时还款,则提升额度,如果没有按时还款,则降低额度。
4:如果给用户放贷之后,用户逾期了(1/2天,或者一星期),则进入催收引擎,如果用户联系不上了,就会联系朋友/家人的联系方式,p2p可能会让用户上传所有通讯录,如果失联,会给所有的人打电话。失联修复后,进入催收评分卡,内催和外催,内催催不回来,则将用户信息交给催收公司,催收公司帮助催收,然后付给催收公司费用。
五:互联网金融风控体系三大组成部分:
- 1:用户数据:用户基本信息,用户行为信息,用户授权信息,外部接入数据。
数据采集:埋点(用户在网站上的操作)和爬虫技术(爬用户手机上的信息,手机设备信息,安装的软件,通讯录,短息)。免费的运营商数据,收费的征信数据(央行直接拿到的),外部黑名单(例如蚂蚁花呗的失信名单)。现金贷和消费贷自有的数据,(例如:京东金融肯定要使用京东商城的数据,看看你买了什么,花呗额度跟 你淘宝的购买力也有关系, 滴滴的司机贷,肯定查看滴滴的司机数据)。 - 2:策略体系:
欺诈规则:诈骗信息,诈骗团伙。
准入规则:用户年龄不符合,地域不能是在诈骗村,诈骗团伙聚集地,通讯录中没有不还款的人,以及诈骗人的联系方式,行为规则就是是不是填写信息的时候很快,一看就是用脚本跑的。
运营商规则:是不是有催收公司给你打电话,通讯录中有欠我钱的。
网贷:短信中是不是催收,是不是APP中有大量的网贷软件。 - 3:机器学习模型:
六:风控模型的流程?
1:评分卡的介绍:
一般采用逾期天数区分正负样本,也就是目标值Y的取值(1/0)
C卡因为用途不同可能Y的取值可能不同
如果是内催可能是用逾期天数,如果是外催,则可能使用(0/1),能催回来就是正样本,否则就是负样本。
- 贷款前:申请评分卡。(白户)信息不清楚的用户。
- 贷款中:行为评分卡。
- 贷款后:催收评分卡。
2:机器学习模型的完整的工程的工作流程:
样本设计:B卡肯定不能有逾期的用户,C卡肯定不能有未逾期的用户。
特征工程:标准化,归一化,降维操作(主成分分析,PCA降维),缺失值和异常值处理。
特征构建:年龄分组,查看每组的统计。。。
特征评估:新生成的特征跟之前的有没有相关性特别大的,或其他的几个特征能够表示这个特征就考虑把这个特征给去掉。
七:项目准备期:
整个流程是: 项目准备期—>特征工程—>模型构建期---->上线运营。
7.1:明确需求:
例如:全新客户开放的小额现金贷产品,抢占新市场。
目标人群:新客;
给与产品:额度(小额) 利率(高)
市场策略:开拓市场
使用期限:紧急使用
7.2:模型设计:
1: 业务抽象成分类/回归问题?
2:模型采用什么算法?
规则模型:
逻辑回归:
集成学习:GBDT
融合模型:
3:模型输入什么?:
数据源
时间跨度(股票每个时间段的数据是不同的)
4:Y标签如何定义?:(重要)
5: 样本如何选取?
6: 观察期和表现期:
观察期:对于B卡来说,用户再次进行申请放贷款,我要往前推一段时间,看看有没有逾期情况,如果有则不进行放贷。
表现期:用户到期三个月没有还款,则3个月为表现期。
7:数据集如何划分?
开发样本:开发样本与验证样本使用分层抽样划分,保证两个数据集中负样本占比相同
验证样本:开发样本与验证样本的比例为6:4
时间外样本:通常使用整个建模样本中时间最近的数据, 用来验证模型对未来样本的预测能
力,以及模型的跨时间稳定性。
八: 特征工程:
8.1: 数据调研:
1: 数据调研:(明确目标人群有哪些可用的数据,数据之间的逻辑)(数据质量,覆盖度,稳定性)
8.2:特征构建:
- 特征构建的误区:拿到数据,立刻做特征。
1: 根据数据源对应的数据表,画出ER图:
2:评估特征的样本集(哪些数据该有,哪些不该有)
例如:B卡样本集不能包含逾期数据,C卡样本集不能包含按时还款的数据。
3:特征框架,特征如何用(跟组内的成员进行讨论)
每个属性都可以从(RFM三个维度考虑:R:最近的, F:最经常的(最大最小值,平均值), M :其他的)
4:明确数据是哪里来的?(数据来源必须一致,不能训练用这个,测试用那个)
数仓原始表
数仓重构表
5: 特征构建有哪些方法?(如何生成新的特征列)
8.3:特征评估:
1: 什么样的是好的特征?
覆盖度高:这个特征我们80%的数据都有。
稳定性高:后期可以长时间使用。
2:模型评估的指标有哪些?
单特征的AUC指标。
KS估计模型的效果。
3:最后我们要生成评估报表:
九:模型构建:
- 1:设计实验(目的:判断哪些特征是能够提升我们模型的效果)
- 2:模型训练(机器学习的方法进行训练)
- 3:模型评估(稳定性(长时间能够使用),AUC,KS,GINI值来判断)
十:上线运营:
- 1:模型交付
- 2:模型部署
- 3:模型监控