spss软件能机器学习 spss软件基础用法

转载

技术极客之光 2024-04-17 12:36:15

文章标签 spss软件能机器学习 spss 入门数据控制变量 文章分类 机器学习人工智能

一．数据

spss软件能机器学习 spss软件基础用法_spss软件能机器学习

1. 个案排序：对数据视图中的某个个案进行排序，具体排序规则可以点进去选择

2. 变量排序：对变量视图中某个变量进行排序，具体规则可以点进去选择

3. 转置：行列互转

4. 合并文件：有两种文件的合并，添加个案可以实现两个文件的纵向合并，添加变量可以两个文件的横向合并

5. 重构：实现把一个表格的若干个变量变为同一个变量等进行表格的合适转换

6. 汇总：对数据按照类别进行汇总，比如三个班级的学生成绩表格，可以按照班级把学生成绩的平均值等等汇总到另外一个表格，该表格就会显示比如按班级显示各个班级的成绩平均值等

7. 拆分文件：实现输出图形表格的合理拆分，比如一个公司有8个部门，现要求分男女比较各个部门的人员工资情况，理论上我们用选择个案（见下条），逐个选择男女与部门需要操作2*8次，由此画出2*8张图表。利用拆分文件，这个时候可以选择

比较组或者按组来组织输出，然后分组依据就是部门与性别，在利用下面会讲到的数据描述就可以实现预期效果。

8. 选择个案：实现选择表格中符合条件的个案然后对其进行相应操作，点击进去后会有各种选择方式，比如如果满足什么条件才选择，随机选择百分之多少等等

一．转换

spss软件能机器学习 spss软件基础用法_spss软件能机器学习_02

1. 重新编码为不同变量：可以把原来的变量或者变量的范围重新定义为新的变量，比如现有一个班级的学生成绩，要求分心50-70分，70-90分 90-100分的同学所占比例，平均值等，现在就可以利用重新编码为不同变量，把上述范围重新编码为新的变量（名字可以自己任意选取），具体操作点击进去之后比较清楚。

2. 计算变量：实现对原来变量的重新计算从而产生新的变量，比如对原来变量进行乘以10操作产生新的变量等等，产生的变量名都是可以自己选择的

一．分析

1. 描述统计：实现对表格中变量的各种类型的描述统计

spss软件能机器学习 spss软件基础用法_控制变量_03

频率：实现某一变量的频率统计，统计显示可以显示其平均值等等，可以选择用条形图或者什么其他图形进行描述，比如对于各个部门的工资可以进行分部门描述各个部门工资平均值或者其所占整体比率

描述：实现某一变量的具体描述，比如具体描述某一变量的平均值，峰值，中位数等等，对于上述的频率则是注重于该变量某属性所占份额即频率的描述

探索：实现分因子列表对因变量列表的描述，例如可以实现分分部门（此时部门为因子列表中元素），对各个部门的工资进行画直方图，茎叶图或者进行相关数据的统计操作，且一次操作可以达到显示所有部门的效果。

1. 比较平均值：对变量平均值进行参数检验

spss软件能机器学习 spss软件基础用法_控制变量_04

单样本T检验：实现某一已知数据与另外的给定数据进行检验判断有没有显著性差异，比如给出2010年的全国人平均消费，现在给出2011年各个地区的人均消费，利用单样本T检验就可以比较这两年的人均消费是否有显著差异（在进行该检验时，最后会自动计算出2011年的全国人平均消费）

独立样本T检验：实现相互独立的样本（两组样本个案数目可以不同，个案顺序可以随意调整）的均值显著性差异检验，比如给出投资类型有两种，需要比较他们对应的投资是否有显著性差异，检验变量为投资额度，分组变量为投资类型

成对样本T检验：实现配对的两个样本（两组样本的样本数必须相同两组样本观测值的先后顺序是一一对应的，不能随意改变）之间均值的显著性差异。比如对于两份调查问卷，给相同的一些人填写，每份调查问卷对应填写得到的相应的分数，现比较这两份所得分数均值是否有差异，即把这两组选为相应的配对组即可

比较独立样本与成对样本检验：注意上述说明的适用条件，如果都可以适用，还需根据已知数据的形式进行选择，其实感觉这两种实现效果都是差不多的。

单因素ANOVA检验：实现多个因子都可以决定某一变量时，他们对变量的影响有无显著性差异，比如投资类型有两种以上，现在需要比较投资类型对应的投资有无显著性差异，此时，运用该检验方法时，因变量列表为投资额度，因子为投资类型。

感觉独立样本检验与单因素检验差不多，只不过独立样本检验的分组变量为两组，而单因素检验的因子至少两个。

1.一般线性模型

spss软件能机器学习 spss软件基础用法_入门_05

单变量：研究两个及两个以上控制变量是否对观测变量产生显著影响。比如比较工人与机器（其中机器有三种，工人有四种）对于产量的影响。此时因变量为产量，固定因子为工人与机器，根据输出便可比较

这个时候如果存在工人与机器之外的第三种变量对产量有影响，为了消除这种影响而只是考虑工人与机器对于产量的影响，这个时候只需要将这第三种变量作为协变量既可。

1. 相关

spss软件能机器学习 spss软件基础用法_控制变量_06

双向量：检验两个变量是否相关：比如检验身高与体重的相关性，这个时候也可以先画一个散点图，点进去之后具体的检验函数什么的都可以自由选择

偏相关：由于其他变量的影响，所以在检验两个变量是否相关的时候，通过相关系数难以得出具体准确的结果，这个时候就需要剔除该变量的影响。比如检验商业投资与地区经济增长相关性时，游客增长会对此产生影响。所以利用偏相关检验时，变量为商业投资与地区经济增长，控制变量为游客增长，这样便可以消除游客增长对于检验的影响。

1. 回归

spss软件能机器学习 spss软件基础用法_spss软件能机器学习_07

线性：实现因变量与自变量的线性回归关系，也可以给出具体的线性回归方程。比如得出现在工资与工龄之间的线性关系，这里因变量是工资，自变量是工龄。当然自变量也可以是多个，比如影响工资的还有职位，当求多个自变量与因变量的关系时，只是在自变量那里填多个自变量即可，不过这里需要把因变量下面的选择有原来的输入改为步进（原来自变量只有一个时选择步进）

曲线估计：当两个变量之间关系无法用线性表示就可以化为曲线估计，可以先求出这两个变量数据的散点图，然后根据散点图估计大致的曲线关系：比如是二次还是对数关系之类。比如求工资与工龄关系，进去曲线估计后，因变量选择工资，变量时工龄。对于下面的模型就根据散点图选择。输出结果后可以很清楚比较哪种曲线拟合最好之类。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。