爱数科案例 | 混凝土抗压强度预测

原创

wx626f487c99133 2022-10-17 12:33:12 ©著作权

©著作权归作者所有：来自51CTO博客作者wx626f487c99133的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用拖拽式工具在线运行本案例请登录

作为一种常见的建筑材料，混凝土的强度（抗压能力）对于建筑的安全性具有重要影响。混凝土的强度受到一系列因素的影响，包括混凝土成分、气候条件、混凝土使用时长等。在本案例中，首先对混凝土强度数据集进行数据预处理和探索性数据分析，然后使用K近邻回归和决策树回归预测混凝土抗压强度，并探究各因素对混凝土抗压强度的影响程度。

爱数科案例 | 混凝土抗压强度预测_决策树

1. 读数据表

首先，读取混凝土强度数据集，该数据集共包含1030个样本，9个变量；其中前7个变量为混凝土中各成分的含量。

本案例的建模目标是混凝土强度，即Concrete compressive strength(MPa)。

从数据集详情页可以看出，数据集中没有缺失值，故不需要进行缺失值处理。

爱数科案例 | 混凝土抗压强度预测_决策树_02

2. 字段基本统计信息

字段基本统计信息如下表所示。

爱数科案例 | 混凝土抗压强度预测_决策树_03

从表中可以看出，各变量的标准差较大，说明分布较为分散；此外各变量的分布有较大差异，如Coarse Aggreagate的最小值为801、最大值为1145，而Blast Furnace Slag的最小值为0，最大值为359.4。

由于模型需要衡量样本间的相似性，建模前需要进行标准化。

此外，Fly Ash这一变量最小值、小四分位数、中位数均为0，而上四分位数大于100，可能存在离群值。

3. 箱线图

为进一步确定Fly Ash是否存在离群值，绘制该变量的箱线图如下所示，图中绿色的数据点为离群值。

爱数科案例 | 混凝土抗压强度预测_k近邻_04

4. 混凝土强度分布

接下来绘制混凝土强度的直方图。可以看到，该变量略微右偏，大致分布在0-100之间。

爱数科案例 | 混凝土抗压强度预测_数据集_05

5. 水泥含量与混凝土强度的关系

然后以水泥含量为X轴，混凝土强度为Y轴绘制散点图。

爱数科案例 | 混凝土抗压强度预测_数据集_06

从图中看出，一般而言水泥含量越高，混凝土强度越大，两者存在正相关。

6. Robust标准化

下一步，我们采用Robust标准化方法对数据进行标准化。
Robust标准化可以消除数据中的量纲，并且对异常值不敏感。

爱数科案例 | 混凝土抗压强度预测_k近邻_07

7. 训练/测试集划分

接下来将数据集划分为训练集和测试集，测试集占比20%。

爱数科案例 | 混凝土抗压强度预测_决策树_08

8. K近邻回归

下面我们定义K近邻回归模型，选择邻居数为5，所有邻居权重相同，采用欧式距离度量。

爱数科案例 | 混凝土抗压强度预测_决策树_09

9. KNN模型预测

通过模型预测组件，得到训练后的K近邻回归模型在测试集上的预测结果。

爱数科案例 | 混凝土抗压强度预测_k近邻_10

10. KNN回归模型评估

最后，对KNN回归模型进行评估。
如下表所示，该模型的决定系数为0.69，说明该模型可以解释因变量（混凝土强度）69%的变异情况。

爱数科案例 | 混凝土抗压强度预测_数据集_11

然后，我们使用决策树回归模型，在同一数据集上对混凝土抗压强度进行建模，以比较两个模型的效果。

11. 回归决策树

设置决策树回归模型参数如下：最大树深度为5，分裂最少样本为3，叶最少样本为2。特征重要度如下图所示，其中水泥含量和年龄的重要程度较高。

爱数科案例 | 混凝土抗压强度预测_数据集_12

决策树模型可视化

爱数科案例 | 混凝土抗压强度预测_数据集_13

决策树模型可视化

12. 决策树模型预测

通过模型预测组件获取决策树回归模型在测试集上的预测结果。

爱数科案例 | 混凝土抗压强度预测_决策树_14

13. 决策树回归模型评估

最后使用回归评估组件，对决策树回归模型对数据的拟合能力进行评价。

爱数科案例 | 混凝土抗压强度预测_决策树_15

决策树回归模型的决定系数为0.75，说明该模型可以解释因变量（混凝土抗压强度）75%的变异情况。与K近邻回归模型相比，决策树回归模型的均方误差、平均绝对误差更小，决定系数更大。这说明决策树回归模型对混凝土抗压强度预测得更为准确。

爱数科（iDataScience）平台是一款拖拽式数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。

上一篇：数据集 | 股票数据集

下一篇：爱数科案例 | 篮球运动员得分可视化分析

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯