拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

原创

拓端tecdat 2022-11-14 20:26:52 ©著作权

©著作权归作者所有：来自51CTO博客作者拓端tecdat的原创作品，请联系作者获取转载授权，否则将追究法律责任

在本文中，我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能。数据集是

credit=read.csv("german_credit.csv", header = TRUE, sep = ",")

看起来所有变量都是数字变量，但实际上，大多数都是因子变量，

让我们将分类变量转换为因子变量，

现在让我们创建比例为1：2 的训练和测试数据集

我们可以拟合的第一个模型是对选定协变量的逻辑回归

> LogisticModel <- glm(Creditability ~ Account.Balance + Payment.Status.of.Previous.Credit + Purpose +
Length.of.current.employment +
Sex...Marital.Status, family=binomia

基于该模型，可以绘制ROC曲线并计算AUC（在新的验证数据集上）

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_多分类logistic逻辑回归

一种替代方法是考虑所有解释变量的逻辑回归

我们可能在这里过拟合，可以在ROC曲线上观察到

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_R语言_02

与以前的模型相比，此处略有改善，后者仅考虑了五个解释变量。

现在考虑回归树模型（在所有协变量上）

我们可以使用

> prp(ArbreModel,type=2,extra=1)

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_R语言_03

模型的ROC曲线为

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_R语言_04

不出所料，与逻辑回归相比，模型性能较低。一个自然的想法是使用随机森林优化。

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_机器学习_05

在这里，该模型（略）优于逻辑回归。实际上，如果我们创建很多训练/验证样本并比较AUC，平均而言，随机森林的表现要比逻辑回归好，

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_多分类logistic逻辑回归_06

拓端tecdat|R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测_多分类logistic逻辑回归_07

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯