瑞天数据创始人杨子君博士“大数据·征信·消费者”的主题分享:

【重磅】大数据·征信·消费者_java

【重磅】大数据·征信·消费者_java_02


大数据和征信现在都是热门的话题,下面就从征信、大数据、消费者三个角度进行阐述征信与大数据的关系。


【重磅】大数据·征信·消费者_java_03
首先是征信和信用,市场上众多的大数据公司在征信和信用贷款的应用领域里面是什么样的布局,扮演的是怎样的角色?


【重磅】大数据·征信·消费者_java_04
第一个问题,征信的本质是什么?征信在不同的国家有不同的叫法,有些国家叫CreditReference Agency,美国的征信局叫做Credit information Bureau,英国的叫Credit Reporting Agency,澳大利亚是叫CreditReporting Body,还有些国家是叫Credit information Company。中国的征信中心实际上叫做Agency,同时还有一些征信公司。在信用链条上,以信用为核心,围绕在信用周围的是消费者、商户、企业和金融机构。信用对于四类主体而言的相互关系是信任、讨债、风险和欺诈吗?信用是否与金钱之间直接联系?针对这些问题,征信,信用和大数据的关联变得更加具体。



首先要从欺诈说起,互联网创新与欺诈紧密地联系在一起,但是为什么会有欺诈?欺诈怎么定义?欺诈到底和征信的关系多强?欺诈在绝大部分的国家都认为是一种犯罪行为,是司法机构、公安部门需要应对和解决的问题,征信公司和数据公司都无法直接监管和处理。欺诈的范围太大,这里我们从征信的角度把欺诈分解成几个层面,明确讨论的范围。


第一类是第三方欺诈,叫做Thirdparty fraud,即利用互联网和系统的漏洞冒充他人身份、盗用了他人的信息。从数据的角度看,主要从数据的强相关性去分析和判断,具体是通过欺诈的模式识别、关联性分析以及历史欺诈数据的分析。然而欺诈是很难防范的,因为欺诈是一种非规律的行为,是一种异常的行为,预测异常行为本身就是难点。针对欺诈更有效的方法是建立一种快速的后验的机制,尽快地识别欺诈的行为模式,然后尽快把漏洞堵上。对于第三方欺诈,征信的目标就是保护受害者,通过征信无法抓罪犯,也不可能去抓,而是通过数据等系列证据证明受害者真的是身份被冒用。从银行的角度,这笔贷款是用受害者名义申请的,银行是否向受害者讨债,就是要确认受害者是否真的受害,这也是针对第三方欺诈而言征信的职责。公安司法机关的职责是打击犯法者,这个实际上非常难,在国外法律有明确的界定,如果身份被盗用可以报案,公安司法机关会登记备案,但是公安绝对不会有警力管这种事情。所以从这个角度来看,征信与欺诈防范之间的闭环不明确,处理起来也比较难。针对第三方欺诈的产品试图以数据分析来发现问题,这些产品也都是在权威征信机构中派生出来的产品,如PreciseID,ID Analytics,Falcon ID,等等。


【重磅】大数据·征信·消费者_java_05
第二类欺诈是第一方欺诈,即Firstparty fraud,也是银行比较关注的一类欺诈,成因是恶意透支,主观骗贷,或者内部操作风险等等。第一方欺诈实际上就用自己的身份向金融机构申请贷款,但是从来没有就想过要还款,这种情况本身有犯罪的嫌疑。P2P公司是第一方欺诈最大的被攻击者,因为P2P的体系不够完善,以及P2P在征信体系里面没有很重要的地位,第一方欺诈的人可能更加愿意攻击这样一个薄弱环节。数据上解决这个问题,也不是那么容易,如果要对第一方欺诈事先防范,具有强相关性的是行为的反常性数据。如果某个人要去做第一方欺诈,他的行为看着通常很好,最后发生欺诈行为,这实际上是一种反常行为,这种反常行为有什么规律呢?对于第一方欺诈的防范,征信就是要及时、全面地整合多方面信息打破信息孤岛和不对称性,不过做好第一方欺诈防范比较难的,因为通常这是有计划、有预谋的犯罪行为。公安司法对这类行为也没有明确界定,而征信对这类事情也没有特别的办法,因为如果损失已经造成了,也就已经把他标成坏客户。所以,针对第一类欺诈,征信是要事先防范,打破信息孤岛。


【重磅】大数据·征信·消费者_java_06
第三类欺诈是行业和专业性欺诈,这种欺诈复杂度和难度更高,是从专业或者是从业人员的角度去做的这种批量型的欺诈。这种类型的欺诈更多的是利用专业知识和内部操作的优势,往往是造成的损害更大。这类欺诈具有强相关性的是欺诈的关联性和传播性数据,这类欺诈看似随机的数据,关联性不在个人、不在消费者、不在单独案例,而是单个案例后面的关系。针对这类欺诈的征信,主要是事后监督,因为这类欺诈无法防范。对于这类专业机构和人员的打击和防范,更多是依赖行业的规范体系,比如从业人员的资格考核等是重要的手段。在美国,也有很多行业规范不够完善的情况下造成的操作风险,不能完全说是行业的欺诈,比如,次贷危机跟这个行业和专业的欺诈有非常强的相关性,那时的贷款政策比较宽松,还有很多中介机构帮助银行贷款给客户,银行工作人员利用专业知识和内部的操作优势放出去很多次级贷款。


【重磅】大数据·征信·消费者_java_07
还有一种交易欺诈,即transaction Fraud,交易欺诈在国内也非常多,90年代初的时候交易欺诈在美国上升特别快速,信用卡、贷记卡、借记卡欺诈非常多,有非常专业的机构进行交易欺诈,就是把一个机器装到刷卡的POS机上,把卡里所有的信息截取出来,一天可以截取成百、上千张卡,然后把卡复制出来,在各个地方随机地去使用。现在电子交易欺诈也随着一些新的交易媒介出现而出现。在九十年代末的时候,美国出现了就出现了一种微小的芯片卡,如果这种芯片卡当时被商家和消费者采纳,现在很多交易欺诈可能98%都可以被阻止。从数据的角度上看,通过人工神经网络,基因算法模型等等深度学习的方法进行交易欺诈的模式识别、关联性像分析以及历史欺诈数据分析挖掘是比较重要的。针对交易欺诈这个领域征信几乎没有介入,而金融机构是防范交易欺诈的主要倡导者,因为交易欺诈带来的是最大损失在于金融机构,而且这是客户体验,市场竞争和金融机构形象等等的重要因素。公安司法机构对于交易欺诈是明确打击的,这方面的法律界定是清晰,但是执行力比较薄弱,目前看来最有效的办法是通过软件算法,硬件算法和软硬件相结合的方法来防范交易欺诈。针对交易欺诈的主要产品包括Falcon、RelianceAuthentications以及41st Parameters。


【重磅】大数据·征信·消费者_java_08
在美国,三大征信局仍旧是主要的欺诈防范的服务提供商,这个领域还有很多其他的服务提供商。在中国的市场上,很多的征信公司也主要是在研究欺诈防范方面,目前很多的征信公司的定位在为互联网金融提供征信服务,而中国互联网金融方面的欺诈更是非常严重。我们可以畅想一个问题,如果没有欺诈是不是就好了?世界会怎么样?


【重磅】大数据·征信·消费者_java_09
严格意义上讲,欺诈和风险是两个概念。就像投资一样,投资是有风险的,但是如果投资的公司欺骗投资人,实际上这已经不是风险,是欺诈行为。金融意义上真正的风险,是投资有赚有赔。信用风险是即便贷款人的信用非常好,他未来还是有不能还款的风险,风险是永远存在,即便没有欺诈。原则上,某一类欺诈基本上是可以杜绝的(当然不同类型的欺诈会不断涌现),但是信用风险确实是一直都存在的。信用风险的管理和识别是征信的核心职能,对征信的健康发展至关重要,未来消费体系、信用体系、征信体系的健康发展这些都是核心的问题。放出的贷款是否能够按期还上,即便是没有任何的欺诈行为,也不能保证借款一定都能还上,因为信用风险一直都存在。信用风险的成因最终还是缺乏债务的合理管理的能力,即资不抵债,收入入不敷出。从数据上来讲,以往的信用历史,即之前的借款与还款行为数据是强相关性的数据,这也是征信机构成立、获得认可并能够长期服务和优化的基础。从这个角度看公安司法是为征信服务的,很多核心数据和基础数据包括个人数据等公安司法要定期上报给征信中心。针对信用风险的评分产品常见的有针对个人消费者的FICO,Vantage,以及小微企业的IntelliScore等。


【重磅】大数据·征信·消费者_java_10
除了信用风险之外,偿还能力风险是另一个重要的风险,及收支平衡能力的管理能力,美国次贷危机的一个重要原因就是偿还能力考虑不足。偿还能力风险的成因是收入能力降低,主要是由于一些客观原因所致,所以银行也很关注债务人收入能力的变化。次贷危机之前征信基本不介入偿还能力风险分析,次贷危机中银行因为没有足够考虑这方面的风险造成比较大的困难,所以之后像Experian等征信公司开始整理收入方面的数据,做了很多相关的分析模型,例如非常有价值的Incomelnsight和Assetlnsight模型就是分别从收入和财产角度建立的模型。


【重磅】大数据·征信·消费者_java_11
欺诈行为如果是一座非常大的大山,即使被克服,可能后面还会有更大的困难,而这正是信用服务机构一个更核心的作用。国外除了三大信用机构之外还有一些民间机构,这些机构更多的是让消费者去理解和了解信用对他的影响,CreditKarma和AnnualCreditReport就是其中的两家信用服务机构。CreditKarma是一个商业公司,其盈利模式不是靠出售征信报告或者征信评分来盈利,而是通过给消费者提供免费的征信评分,然后为银行提供对标的客户,通过从银行端收费的方式来赚钱的。


AnnualCreditReport也是一个民间人盈利组织,帮助消费者了解自己的信用。然而目前在中国除了央行征信中心之外,还没有民间信用服务机构帮助消费去充分了解自己的风险,国内征信服务还处于比较初步或初级的阶段。银行的风险认知度非常高,面临的欺诈风险相对较少,受到欺诈的攻击并不强,但并不代表银行能赚钱,银行还面临很多其他的风险。


【重磅】大数据·征信·消费者_java_12
征信的目的是帮控制风险,并不能规避风险,欺诈需要杜绝,但风险永远不可能规避。银行的核心在于管理风险,有效的管理风险才能取得利益。控制风险以外,除了前面的提到的风险,还有一种是系统性风险,或者叫经济环境风险,这与宏观经济、货币政策、系统缺陷和经济周期都是相辅相成的。从数据和征信的角度看,征信在这方面起到的作用是非常巨大的,美联储做的很多经济数据分析,实际上都是从最微观数据汇总后提供的依据。现在的社会复杂度、经济的复杂度,如果没有微观的汇总,经济方面的预测就很难非常准确,益百利在微观数据汇总上都有很多的投入,与合作伙伴标普和穆迪开发标普指数和穆迪指数。



从这个角度看征信就处于一个比较边缘地位了,处于中心地位的是美联储、标普和穆迪专业风险评级机构来提供。中国人民银行与美联储是同等地位,央行征信中心本身是央行的一部分,理论上中国是可以更强势地把控经济的周期和经济风险的。国内目前还比较缺乏类似标普、穆迪的专业机构,能从宏观和微观上一起能够提供有效的风险评估解决方案。



征信与大数据是分不开的,前面提到的各种形式的欺诈和风险都介绍了对应的核心数据。针对不同的问题,对应的数据是不一样的,所以对数据的认知如果浮于表面是远远不够的。



数据的价值如何体现呢?自然界有许多规律,例如二八定律这是普遍适用的一种不平衡的原则。对于公司而言,通常20%的客户带来80%的利润,这20%的客户肯定是公司重点关注和服务的对象,另外80%客户只带来20%的利润,就不会那么重点的关注。还有世界上20%的人掌握了80%的财富,美国虽然是民主国家,仍然也是这样。同理,在数据的价值方面,结合多年的经验,这个规律仍然成立,即20%的数据实际上体现了80%的价值。


【重磅】大数据·征信·消费者_java_13
由此产生的另一个问题就是数据的价值是否一成不变呢?曾经体现80%价值的20%的数据是否永远带来80%的价值?虽然二八定律是不变的,但是应用是不断变化的,那么数据也就是在变化的,原来产生80%价值的数据可能不再产生多大价值。数据价值是在不断变化的,数据价值是从原始数据分析中提炼出来的,需要围绕应用和服务需求来定位数据。征信的核心是信用风险,美国征信机构有三亿多人和七千多万的小微企业征信记录,对于信用风险而言80%的价值来源是什么数据呢?经过大量模型的验证,发现还是征信数据的价值最大,即以往借贷以及还款历史数据,其次是执法信息,然后才是消费者行为数据。之前在益百利用VISA的交易数据来做信用风险模型,只用VISA的交易数据没有信贷还款数据的情况下,效果在不错的区间,但是用益百利的征信数据做的效果可以远远超越交易数据,在此基础上叠加Visa的数据价值增量就很小了。实际上,很多的不同数据源之间它们的相关性非常强。利用社交网络数据进行测试,我们发现在有征信的情况下,社交网络数据的效果就很微弱。


另外还有一个问题,就是在没有征信的情况下怎么去做信用风险模型,中国有很大部分人还没有征信,美国也有25%到30%的人没有征信,包括新移民、刚满18岁的年轻人等。没有征信的人如果去向正规的机构贷款,包括银行、小贷公司等纳入征信范围的金融机构,在没有征信数据情况下,需要使用一些可替代数据。这些替代数据也就是在第一次信贷的瞬间起作用,一旦通过信贷就很快迁移到有征信数据的行列,对于第一次贷款处理的过程,通常是根据有限的价值放贷。对于没有征信的人信用风险模型,基于三十几个数据源的验证,个人信息、稳定性、职业、居住数据的价值是最大的,其次是消费行为数据,然后是个人在其他方面的违约信息,不一定是金融机构,社交网络还排在最后。通过这些替代数据建立征信扩充型给出一个信用评分,用户通过这个评分拿到一笔贷款以后,评分会不断地偏移,最后变成征信的人群。


【重磅】大数据·征信·消费者_java_14
很多的大数据公司都比较注重于欺诈,对于识别欺诈行为的数据价值最大是以往交易行为历史数据。在大量交易行为是找出欺诈行为相当于大海捞针,通常的做法是在各种各样的交易数据中识别正常的模式和非正常的模式,通过交易模式的比对,非正常模式相当于正常模式下的一种异常行为。其次是黑名单,益百利等很多的公司都建了大量的黑名单,黑名单应用非常多的,但是从大数据建模的角度,在一个银行、在具体使用过程中黑名单的命中率会非常低,这并不能表明黑名单的效果不好,如果黑名单的集中命中,说明这个客户群会很可怕。最后是地址和定位的数据,主要是交易行为相关的位置数据,欺诈的联接尤其具有传播性行为预测,对地址和定位数据也挺重要。

市场数据价值也不一样,市场数据的80/20准则会变化很快。在市场数据中,消费行为数据价值比较不错,用VISA的数据,可以帮助商务找到了合适的客户,因为用户以前的消费行为体现他未来市场的偏好。其次是社交网络数据价值,消费者的市场行为非常受左右的影响,但风险受左右的影响程度小。然后是风险数据,对于很多的金融产品,如果不考虑风险,拿到的大量数据也是一堆的垃圾,金融机构首先要定位风险,然后在潜在的客户根据风险定位进行筛选。最后是地址和定位数据,地址和定位数据的时效性特别重要,在当时的时间和地点进行营销的成功率可能就比较高。


【重磅】大数据·征信·消费者_java_15
数据价值是变化的,并且数据的价值是可以深度挖掘和公正评价的。数据使用者要对数据要有清晰的认识,要知道数据该怎么用,数据提供商也要对数据有清楚的认识,数据的价值是因人而异也是因地制宜的,如果不能认识到这点而过分的强调数据价值,对未来业务的开拓只有害而无利。数据价值的挖据必须要了解应用场景,并且要进行分析总结。数据价值不是一成不变的,如果没有迭代的体系,这个数据价值可能就会很快过时。


【重磅】大数据·征信·消费者_java_16
益百利在数据、应用上都比较前列的。益百利做了很多数据源的整合,不是所有的数据益百利都是第一拥有者,益百利直接拥有个人信用数据、中小企业信用数据、汽车数据、市场统计数据、及部分互联网数据,房屋数据和很多互联网数据都是合作伙伴的数据,益百利搭建了一个数据共享的平台。通过数据共享平台,益百利早已从简单的数据采集和数据提供商,升级到数据分析角色和咨询实施。益百利之所以能够被认可,很大程度上是在于数据分析决策和后续的产品服务。


【重磅】大数据·征信·消费者_java_17
征信和消费者是密不可分的,消费者可能觉得和征信离的比较远,认为征信不是找麻烦,也没有什么好处。当然事实并非如此,征信服务于金融机构当然更重要,因为金融机构对征信的需求最大。


【重磅】大数据·征信·消费者_java_18
征信也是服务消费者的,征信机构如果不能够跟消费者紧密结合,未来的发展的潜力和余地就会很有限。因为征信的很多数据不是来自消费者就是来自企业,所以大家都比较关注数据的合法性、真实性、安全性、公平性、透明性等。作为数据提供商是要非常关注这些方面的。本着保护消费者的原则,除了消费者之外,还有金融机构,征信公司可以给很多的金融机构提供服务,机构之间什么数据是可以共享的,什么数据是不能共享的,因为在这个过程中会对金融机构很多的运营、风险等核心的东西产生很大影响。


【重磅】大数据·征信·消费者_java_19
消费者征信服务有几个方面是非常重要的。首先是Dispute,每个消费者都有权利对不准确信息的投诉,要求受理和修正。假如有人盗用你的信息,你是有权利去Dispute的,但是Dispute要走一个流程,而且一个非常强的时间窗口,通常比较短的时间窗口,所以消费者是有必要了解征信一些基本规则的,如果因为不了解而忽略了可能会造成重大的影响和伤害。第二个是Security,消费者是信息的拥有者,有权冻结和解冻征报告的查询,消费者可以要求征信中心停止把其数据卖给金融机构等,征信中心就不能再卖了,这是对消费者的服务,每个人可以打电话获得个性化服务的。这样几乎能够保证消费者的征信不会被滥用,因为没有打电话授权,征信中心也没有办法动用消费的征信信息。第三是Decline,如果消费者被银行拒绝贷款以后,消费者可以到征信机构来咨询贷款被拒绝的原因。第四是CreditMonitoring,消费者可以做信用监控,监控身份被别人盗用和引发的交易欺诈,可以在第一时间知道情况,这样申诉的时候就有比较好的优势。最后就是还有欺诈防范和征信查询。