IBM SPSS产品系列最主要的两款软件为IBM SPSS Statistics和IBM SPSS Modeler。
IBM SPSS Statistics主要用于统计分析,如均值比较、方差分析、相关分析、回归分析、聚类分析、因子分析、非参数检验等等。一般应用于数据量较小的分析,比如在学校的时候用的多,一般直接录入数据或导入Excel数据进行分析。
IBM SPSS Modeler主要用于数据挖掘,比如各种、各种决策树算法、神经网络算法、贝叶斯算法等等。目的就是通过对数据的整理、建模,挖掘出相关结果,指导管理实际。主要应用于数据量大的分析,或者连接至数据库进行分析。
今天主要介绍使用IBM SPSS Modeler进行随机森林算法预测,基本就是可视化建模类型的,拖拽一个个的节点,设置属性,连接,最后运行即可
数据准备
原始为一个表格数据,包含每个样本的因变量和实际值。使用随机森林基于因变量进行预测。最终计算模型精度。
导入数据,即选中下图的节点并拖拽到窗口内,
如果是csv文件则
右键点击编辑设置输入的文件
将类型节点拖拽进去
连接表和类型节点
右击编辑,在角色一栏设置好要输入、目标的字段
建模
拖拽随机森林算法节点,与类型节点连接
右击编辑可以看到基本参数,使用默认参数执行
输出分析
拖拽分析与表格节点,与建模结果连接
具体结果:
输出的csv文件中的预测值