多变量分析(终图)
最后探究贷款利率与信用评分和评级之间的关系:
data$CreditGrade <- factor(data$CreditGrade,order=TRUE,
levels = c("AA","A","B","C","D","E","HR"))
data$ProsperRating..Alpha. <- factor(data$ProsperRating..Alpha.,order=TRUE,
levels = c("AA","A","B","C","D","E","HR"))
p1 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=CreditGrade),
data=subset(data,!(data$CreditGrade==""|data$CreditGrade=="NC")))+
geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+
scale_color_brewer(type = "div",
guide=guide_legend(title = "creditlevel(pre-2009)"))+
ggtitle("2009年之前贷款利率与信用评分和评级关系图")
p2 <- ggplot(aes(x=creditscore,y=BorrowerRate,color=ProsperRating..Alpha.),data
=subset(data,!(data$ProsperRating..Alpha.=="")))+
geom_jitter(alpha=0.5)+scale_x_continuous(limits = c(400,1000))+
scale_color_brewer(type = "div",
guide=guide_legend(title = "creditlevel(post-2009)"))+
ggtitle("2009年之后贷款利率与信用评分和评级关系图")
grid.arrange(p1,p2,ncol = 1)
推论:
1.2009年之后,平台不再对信用分数600分之下的用户提供贷款服务;
2.2009年之前,用户信用等级与用户的信用分数分布一致,随信用分数的增高,用户的信用等级逐渐增加,对信用等级的评定中信用分数作用将强。但贷款利率并未与这两者有太强的联系。而2009年之后,弱化了信用分数对信用等级的影响。信用等级与分数相联系,但信用等级影响客户的贷款利率。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。
- 探究信用等级、贷款利率、贷款状态之间的关系:
data$Phase <- factor(data$Phase,order=TRUE,levels = c("Before 2009","After 2009"))
data$creditlevel <- factor(data$creditlevel,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
ggplot(aes(x=creditlevel,y=BorrowerRate,color=newLoanStatus),data = subset(data,!(is.na(data$newLoanStatus)|is.na(data$creditlevel))))+
geom_jitter(alpha=0.5)+facet_wrap(~Phase)+
ggtitle("2009年前后信用等级与贷款利率分析")
由上图分析可知,信用等级对贷款利率影响较大。此次根据信用等级绘图,可以再一次看到2009年之后信用等级和贷款利率之间的联系更好。2009年之前呈图更为凌乱,用户信用等级低也可用较低利率贷款,出现问题贷款的次数更多,而2009年之后情况明显好转。因此,2009年之后的信用评定准则更为合适。
- 探究信用等级的影响因素:
ggplot(aes(x=BankcardUtilization,y=StatedMonthlyIncome,color=creditlevel),data = subset(data,!(is.na(data$creditlevel))))+
geom_jitter(alpha=0.5)+scale_y_continuous(limits =c(0,50000))+
scale_x_continuous(limits = c(0,2))+
facet_wrap(~IsBorrowerHomeowner)+scale_color_brewer(type = "seq")+
theme(panel.background = element_rect(fill="#DCDCDC"),
panel.grid = element_blank())+
ggtitle("信用等级影响因素分析")
信用等级评定对借款利率影响较大,故而分析一下除信用评分外对信用等级评定有影响的因素。通过分析发现: 1. 信用卡使用情况对信用评定影响较大。借款人信用卡使用额度和信用卡总透支额度的百分比越高,透支使用越严重,信用等级越低; 2. 借款人声称的月收入越高,借款人的信用更有可能越高,但这一影响力表现不太明显; 3. 借款人是否有房产一定程度上影响其信用等级。左图为无房产,右图为有房产,右图的高信用等级占比高于左图。
反思
该模拟探究实验从单变量、两个变量到多变量对prosper的贷款数据进行了初步的分析和数据可视化,主要分析了平台的客户特征,问题贷款、贷款利率以及信用等级和信用评分之间的关系,最后分析了影响信用等级的因素。 主要得出以下结论:
- 该平台客户在加利福尼亚州、纽约州、弗洛里达州、德克萨斯州、伊利诺斯州分布较多,领先于其他各州,可以适当增大在其余州的宣传力度,开发新客户。
- 客户的主要贷款用途集中在类别1、0、7,可以在与之相关的途径加大平台宣传力度,吸引新用户。
- 问题贷款主要与征信查询次数、违约次数、债务收入比、收入范围相关,可以通过这几个变量建模,分析易出现问题贷款的客户特征。
- 贷款利率与客户信用等级密切相关,信用等级高的客户,贷款利率低,信用等级低的客户,贷款利率高。
- 2009年之后,弱化了信用分数对信用等级的影响。信用等级与客户的贷款利率关系更清晰。等级高的客户贷款利率低,等级低的用户贷款利率高,更为公平。该评定准则下问题贷款出现次数明显减少。
- 信用卡使用情况、借款人月收入、有无房产等因素均对信用等级评定有影响。
分析过程中遇到的难点:
- 数据集中变量较多,很难理清关系,在前期单变量探索的时候需要更加注重对每一个变量的分析,加强对变量的认识。
- 需要在分析之处建立较为完善的分析目的,不然容易在分析到后面的时候容易因为变量过多理不清思路,下次可以在单变量探索之后圈定几个感兴趣的变量进行集中分析。
目前已经分析出来容易出现问题贷款的人群特征,下一步可以以此建模,圈定易问题贷款的客户群体,提高借贷利率。同时也分析出信用等级评定与哪些因素有关,可以再多探讨几个变量,完善这一信息,总结出较为完整的可以提高信用等级的方式。通过这两个思路可以让后续的报告思路更为清晰,结果更为明确。