SPSS 数据挖掘方法概述——关联、决策树
本实验是基于关联和决策树在数据挖掘中的应用。通过该实验,能够客观实际地理解关联分析和决策树的相关知识。
首先进行的是关联分析,之后利用关联分析的数据建立一个决策树。
1、关联分析
(1) 打开并查看数据文件。利用“可变文件”节点将“Demos”下的“BASKETS1n”添加节点中。然后使用“输出”选项卡下的“表”查看数据,如图 41 所示。这里的数据是某商场中的购买记录,共 18 个字段,1000 条记录,在后面的列中,值“T”表示已购买该商品,值“F”表示没有购买该商品。
图 41 “表”窗口
(2) 确定关联分析字段。在这里中,需要对购买商品之间进行关联分析,即确定客户购买商品之间是否存在关联性,也就是说客户在购买一种商品时,购买另一种商品的概率是多少。所以,在这里,将选择记录中能够体现是否购买某商品的字段进行关联分析,其中有 fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectione ry,共 11 个字段。
(3) 读入分析字段的类型。在工作区生成“类型”节点,并双击编辑,将上一步骤选出的 11 个字段的角色设定为“两者”,如图 42。
图 42“类型”节点编辑窗口(4)添加模型节点。分别在“类型”之后添加“Apriori”模型节点和“Crama”模型节点,如图43 所示。其中,“Apriori”模型是基于“最低支持度”和“最小置信度”进行关联性分析。
图 43 工作区中的“Apriori”模型和“Crama”模型
(5) 运行并查看“Apriori”关联模型结果。运行“Apriori”模型的数据流,在右上侧生成数据模型,右键查看,如图 44 所示。表中可以看出,客户同时购买 frozenmeal、beer、 cannedveg 的概率很高。因此,商家可以将这三种商品放在相邻的位置,以促进销量。
图 44 Apriori”模型查看窗口
(6) 运行并查看“Carma”关联模型结果。运行“Carma”模型的数据流,在右上侧生成数据模型,右键查看,如图 45 所示。同样可以看出,客户同时购买 frozenmeal、beer、 cannedveg 的概率很高。
图 45 “Carma”模型查看窗口
(7) 利用“网络”图进行定性关联分析。选定“类型”节点,双击“图形”选项卡下的“网络”,既可添加“网络节点”。然后,需双击编辑 “网络”节点,将步骤(5)中选择的 11 个字段选定为分析字段。运行该“网络”节点,则右上区域生成关联模型,查看该关联模型,如图 46。从图中表明,两点之间的线越粗,表示两者间相关性越强。同时可以通过调节下面的滑动点,查看相关性。
图 46 “关联”模型查看窗口