1、数据介绍
本节教程中将利用SPSS Modeler18.0对已经数据进行描述性统计分析与数据可视化,需要利用SPSS Modeler软件计算数据的集中趋势指标:平均数、中位数、众数;离散趋势指标:极差、方差与标准差;数据的分布形态:偏度、峰度等指标。利用散点图、条形图、直方图等对电信客户流失进行初步分析。演示所用的数据为SPSS Moddeler18.0自带的电信数据集:telo.sav,数据地址是SPSS Modler18.0安装路径下的Demos文件夹中,我的是:
C:\Program Files\IBM\SPSS\Modeler\18.0\Demos。本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的彭毅可以直接下载。
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。
2、操作步骤
2.1描述性统计
(1)数据审核
数据的描述性性统计可以使用SPSS Modeler的【数据审核】功能。例:将数据源节点拖入数据流构建区域,双击打开,选择需要进行分析的文件。
将字段选项中的【类型】节点拖入构建区域,建立连接,对不同字段测量属性进行设置。
对字段的【测量】属性进行设置时,需要注意“标记”、“名义”、“有序”都表示该字段是分类变量,不同的是“标记”只有两个值,如0-1代表那男女、流失与否等,“名义”表示有三个以及三个以上的取值,如:1、2、3、4代表亚洲、欧洲、非洲、澳洲,“有序”代表不同类型之间存在一定的顺序,如1,2,3代表收入低、中、高。对字段角色的设置,则根据字段是作为自变量还是因变量,自变量是输入,因变量是目标。进行数据分析之前,一定要需要根据数据类型将数据测量的属性设置好。
将【输出】节点中的【数据审核】节点拖入构建区,点击运行。
得出如下数据审查结果,其中包含各字段的描述性统计信息。
(2)分类汇总
将节点区的【汇总】节点拖入数据流构建区,将关键字段设置成表示用户流失与否的【churn】,汇总字段选择除了【churn】的剩下所有字段,在汇总字段总可以勾选自己需要的统计指标,如:均值、方差、标准差、合计等。
【汇总】节点设置完成后,再从节点区的【输出】节点中选择【表格】节点拖入数据流构建区,与【汇总】节点连接,点运行,得到各个字段关于【churn】字段的分类汇总统计结果。
2.2数据可视化
(1)不同字段的可视化分析
利用SPSS Modeler【图形】节点绘制不同类型统计图。例:将节点区【图形】节点中的【分布】节点拖入构建区,选择“churn”字段按照性别“gender”绘制分布图。
点击运行,可以看到流失与非流失客户中,男女的比例大致都是占一半,无明显区别。
将节点区【图形】节点中的【直方图】节点拖入构建区,选择“age”字段绘制直方图。
点击运行,可以得出不同年龄的分布情况。
此外,还可以根据其他不同字段设置【交叠字段】进行绘制,此例在【交叠字段】中设置“ed”作为颜色区分,并在【选项】中勾选显示标准曲线,设置如下。
点击运行,得到如下直方图,不仅可以看到每个年龄的分布,还可以看到不同年龄段中中各个教育程度的占比用不同颜色区分。
(2)分类汇总可视化分析
对于之前所做的针对客户流失与否的【churn】字段的分类汇总数据,可以利用【图形】节点中的【图形板】绘制流失与非流失客户在各个指标上均值的【平行图】。
将【图形板】节点拖入数据流构建区与【汇总】连接,在图形板【基本】选项卡选中需要绘图的字段,上图的例子中选择的是汇总后的均值,然后在【详细】选项卡中将【色彩】选择【churn】,用以区分,设置好后点击运行,得到如下平行图:
SPSS Modeler中的【图形版】中还有十分丰富的图形可供选择,可以选择进行绘制。如,线图、热力图、箱形图等等,可以按需绘制。
3、小结
本节中介绍了利用SPSS进行数据的基本统计、分类汇总以及可视化操作,通过描述性统计和可视化,可以帮助我们在数据建模分析之前对数据有更为全面的了解并能根据图形可视化进行简单的分析。