IBM SPSS产品系列最主要的两款软件为IBM SPSS Statistics和IBM SPSS Modeler。

IBM SPSS Statistics主要用于统计分析,如均值比较、方差分析、相关分析、回归分析、聚类分析、因子分析、非参数检验等等。一般应用于数据量较小的分析,比如在学校的时候用的多,一般直接录入数据或导入Excel数据进行分析。

IBM SPSS Modeler主要用于数据挖掘,比如各种、各种决策树算法、神经网络算法、贝叶斯算法等等。目的就是通过对数据的整理、建模,挖掘出相关结果,指导管理实际。主要应用于数据量大的分析,或者连接至数据库进行分析。

今天主要介绍使用IBM SPSS Modeler进行随机森林算法预测,基本就是可视化建模类型的,拖拽一个个的节点,设置属性,连接,最后运行即可

数据准备

原始为一个表格数据,包含每个样本的因变量和实际值。使用随机森林基于因变量进行预测。最终计算模型精度。

pyspark 随机森林回归模型 spss随机森林回归_pyspark 随机森林回归模型

导入数据,即选中下图的节点并拖拽到窗口内,

pyspark 随机森林回归模型 spss随机森林回归_随机森林_02

如果是csv文件则

pyspark 随机森林回归模型 spss随机森林回归_随机森林_03

右键点击编辑设置输入的文件

pyspark 随机森林回归模型 spss随机森林回归_pyspark 随机森林回归模型_04

将类型节点拖拽进去

pyspark 随机森林回归模型 spss随机森林回归_建模_05

连接表和类型节点

pyspark 随机森林回归模型 spss随机森林回归_随机森林_06


右击编辑,在角色一栏设置好要输入、目标的字段

pyspark 随机森林回归模型 spss随机森林回归_pyspark 随机森林回归模型_07

建模

拖拽随机森林算法节点,与类型节点连接

pyspark 随机森林回归模型 spss随机森林回归_随机森林_08


pyspark 随机森林回归模型 spss随机森林回归_拖拽_09


右击编辑可以看到基本参数,使用默认参数执行

pyspark 随机森林回归模型 spss随机森林回归_建模_10


pyspark 随机森林回归模型 spss随机森林回归_建模_11


pyspark 随机森林回归模型 spss随机森林回归_拖拽_12

pyspark 随机森林回归模型 spss随机森林回归_拖拽_13

输出分析

拖拽分析与表格节点,与建模结果连接

pyspark 随机森林回归模型 spss随机森林回归_拖拽_14


pyspark 随机森林回归模型 spss随机森林回归_随机森林_15

pyspark 随机森林回归模型 spss随机森林回归_随机森林_16

具体结果:

pyspark 随机森林回归模型 spss随机森林回归_随机森林_17


pyspark 随机森林回归模型 spss随机森林回归_SPSS_18


输出的csv文件中的预测值

pyspark 随机森林回归模型 spss随机森林回归_SPSS_19