第一章
:SPSS
概况
社会科学统计软件包
-->
统计产品和服务解决方案
-->IBM SPSS
SPSS
可调用
R
语言的各种统计包或
Python
的功能模块,实现最新统计方法的调用,增强
SPSS
的扩展性。
SPSS
为各分析阶段提供了丰富的模块功能。常用模块大致分为四个分析阶段
:
数据处理、描述性分析、推断性分析、探
索性分析
SPSS
不足之处:虽可以直接导出
txt
、
doc
、
ppt
、
xls
等文档格式,但通常与数据分析报告风格不符。
SPSS
常用窗口
:
数据窗口
(
菜单栏、数据视图、变量视图
)
和输出窗口
菜单栏中“数据”
、
“转换”用于数据处理相关操作。
“分析”用于数据分析相关操作。
数据视图中每一行叫做一个“个案”
,每一列叫做“变量”
SPSS
数据结果文件默认保存文件格式为
spv
,而
SPSS
数据文件默认保存文件格式为
sav
对各种统计方法的使用,只要了解统计分析的基本原理,无须通晓统计方法的各种算法
SPSS
涵盖了各种统计方法与模型,从简单的描述统计分析方法到复杂的多因素统计分析方法
第二章:数据处理
清洗、抽取、合并、计算、分组、标准化
常用数据类型:字符型数据、数值型数据、日期型数据
字符型数据是一种分类数据,分男女,分省份
...
数值型数据是一种特殊的分类数据,日期型数据可进行算术运算,是一种特殊的数值型数据
例:
职业变量
:1
代表白领、
2
代表蓝领、
3
代表金领。这时
1
、
2
、
3
只是标记,属于并列关系,没有次序关系
年龄变量
:1
代表
1
岁、
2
代表
2
岁、
3
代表
3
岁。这时
1
、
2
、
3
不仅是个标记,还有次序、大小关系,可以做算术运算
职业、年龄变量的数据类型都可以是数值型,但数值的具体含义不同,使用的统计方法也不同,这时就有必要给数据
变量增加一个测量尺度属性
在统计学中,按照对事物描述的精确程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺
度和定比尺度
数据导入注意第
4
、
7
步
数据清洗:将多余重复数据筛选清除、将缺失数据补充完整、将错误数据纠正或删除
重复删除
--Excel
中是有删除重复项的功能,可以直接删除重复的数据记录。
SPSS
则需要分步操作,先将重复记录找出
并标记,然后根据是否重复标记排序,将重复记录排在一起,再将其删除
数据
-->
标识重复个案
(
在此对话框中将所有变量都放入
[
定义匹配个案的依据
]
框中,
其它选项保持默认设置
)-->
生成一个
重复数据记录标识变量
”
最后一个基本个案
”
(0
代表重复个案,
1
代表唯一或基本主个案
)-->
选中
”
最后一个基本个案
”
变
量,单击右键,选择
[
升序排列
]-->
选中
”
最后一个基本个案
”
变量值为
0
的个案,单击鼠标右键,选择
[
清除
]
补充完整,错误数据纠正????
数据抽取:保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。
(
主要学习字段拆分、随机
抽样两种方法
)
例:
”
身份证号码
”
字段可抽取出省份、城市、出生日期、性别等信息
在
Excel
中使用
Right
、
Left
、
Mid
函数进行相关字段的抽取、拆分。
SPSS
使用
Substr
函数进行字段拆分操作。
Substr(
字
符串,提取的起始位置,提取的字符个数
)
转换
-->
计算变量
-->[
函数组
]
选择
”
字符串
”
类,在
[
函数和特殊变量
]
中双击
”
Char.Substr(3)
”
函数
,
这时
”
Char.Substr(3)
”
函数就被移入
[
数字表达式
]
框中,
然后将表达式修改为
”
CHAR.SUBSTR(
身份证号码
,7,4)
”
完成了公式
的编写
-->
在
[
目标变量
]
框中,输入变量名称
”
年份
”
,并在
[
类型与标签
]
功能中设置类型为
”
字符串
”
。
计算变量这个功能在
SPSS
中非常常用,类似于
Excel
的编辑栏功能,通过输入函数或计算公式来新增变量。
随机抽样
:
简单随机抽样、分层抽样、系统抽样
数据
-->
选择个案
-->[
选择
]
框中选择
[
随机个案样本
]
项,单击
[
样本
]
按钮。此时
SPSS
在数据表最后一列新增一个
”
filter_$
”
变量,
0
表示记录未被选中抽取,
1
表示记录被选中抽取
如果希望将抽样得到的数据单独存为一份新的数据文件,
用于其他数据分析,
则可在上述操作中返回
[
选择个案
]
对话框
的
[
输出
]
框中,选择
[
将选定个案复制到新数据集
]
项
数据合并:
综合数据表中某几个字段的信息或不同的记录数据,
组合成一个新字段、
新记录数据。
(
主要操作
:
字段合并、
记录合并
)
例:将抽取出来的出生年份、月份、日,这三个字段合并成一个新字段
:
出生日期
在
Excel
中使用
Concatenate(Concat)
函数进行三个字段的合并