一提到hadoop相信熟悉IT领域或者经常关注互联网新闻的朋友都应该很熟悉了,当然,这种熟悉可能也只是听着名字耳熟,但并不知道它具体是什么东西,或者用来做什么。这些都不重要,重要的是你知道有hadoop这么个东西就可以了。

前段时间码了一些hadoop方面的分享文章,纯属个人的一点小经验,可能有的地方写的不好,将就下吧!今天要分享的这篇是转载的一篇大快搜索公众号上的文章,是关于时下比较热闹的P2P金融方面对hadoop应用的一个架构设计。

Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_数据 

以下为原文:

P2P网络贷款(“peer-to-peer”)为中小企业和个人提供了便利的融资渠道。近年来,随着互联网金融的逐步发展,P2P网贷已成为时下炙手可热的互联网金融新模式。凭借着“高收益”的理财优势,各类P2P网贷平台呈现逐年增长的态势。目前,我国正常运行P2P平台数量已达近3000家,累计成交量约8000亿元。

然而,网贷业在爆发式增长的同时,也存在着重大风险。高利率庞氏骗局、投放假标的、平台自融、洗钱、资金挪用、虚报理财业绩、跑路等形形×××的平台问题不断发生。大平台逾期还款,小平台跑路的新闻屡见不鲜,给投资人造成巨大损失,造成信任危机。使投资者损失惨重。目前P2P网贷面临的最大风险是信用风险,信用风险已经成为P2P网贷行业发展的主要瓶颈,而借款人信用评估则是降低信用风险、提高企业风险管理水平的决定性因素。

国内外关于P2P网贷借款人信用评估方面的相关研究主要是从评估指标和评估方法两个方面进行探讨的。由于国外具有比较完备的数据共享征信系统,所以国外对于借款人信用评估的研究不仅包括平台本身的借款人信息,还包括政府信用系统、社交网络、购物行为等其他平台共享信息;而国内关于P2P网贷的研究大都只是介绍了目前主要P2P网贷平台的运营模式,或者仅针对特定平台进行风险研究,评估指标的采用没有一个统一的标准。 

因此,虽然目前应用于借款人信用风险评估的指标多达几十种,但是除了少数针对借款人个人信息的指标相同外,不同P2P网贷平台采用的其他指标都不尽相同,在研究信用风险问题时,由于采用的指标不同,给出的结论也不尽相同,很难给出指标与风险之间明确的作用关系,而关于对借款人进行信用风险评估,需要哪些基本指标作为评估标准,才能说明评估的全面性、通用性、可信性的研究鲜有报道。

另一方面,随着数据量和数据种类的不断增加,P2P网贷平台的数据量已达到了PB、EB甚至 EB级别,而随着银行信用系统、其他共享系统等平台数据的不断接入,应用大数据技术进行平台数据管理和分析已是必然。目前绝大多数借款人信用风险评估研究都是基于静态分析给出的结果,然而数据是变化的,风险在变化中产生,从动态角度,对借款人信用风险进行实时分析、跟踪监测更具实际意义。

Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_分析实例 _02 

基于上述原因,本研究应用大数据技术,建立借款人信用风险实时监测模型和风控方案,为P2P网贷平台借款人信用风险评估提供大数据架构参考。

研究内容的整体框架如图1所示:

Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_数据_03Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_hadoop_04 

1 研究整体框架

 

大数据实时监测模型架构如图2所示:

Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_分析实例 _05Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_hadoop_04 

2 大数据实时监测模型框架

 

研究技术路线如图3所示:

Hadoop数据分析实例:P2P借款人信用风险实时监控模型设计_数据_07 

3 研究技术路线