基础知识
2.1定义变量
1.变量名称
①变量名称首字母不可用数字、空格,变量名也不可用“!、?、$、all、and”(可用汉字、拼音、符号)
②变量名称不区分大小写
③变量名最后一个字符不可用”. -“
2.变量类型
汉字——字符串
3.标签
相当于添加备注
4.值
通过添加数值和代表的标签可反映数据情况,如“1=男,2=女”
2.2数据打开方式
方法一:输入
方法二:文件-打开-数据-选择文件
方法三:文本导入,打开-数据-文件类型:文本格式-选中文本-跟随向导(变量名称是否包含在文件顶部,如果包含顶部的话第一行数据直接当作变量)
方法四:文件-打开数据库-新建查询-数据库导向
2.3数据编辑和输出
1.插入删除变量
操作步骤:数据视图选中变量-右键选择插入或删除或在变量视图点击变量-右键删除
2.删除个案
操作步骤:左侧右键清除
3.数据输出
操作步骤:文件-另存为-选择保存类型(spss\excle等)
变量选项可以用于保存部分变量
基本操作
3.1数据排序
1.升降序排序数据
操作步骤:数据-排序个案-将希望排序的变量选入-选择升降序
对于同等树高的个案按照冠幅降序排序:选入树高变量选择升序-选入冠幅变量选择降序
2.排序变量
数据-排序变量-选择变量视图列表-选择升降序
按照变量的属性进行排序
3.2数据转置(数据原来的行变成列、列变成行)
操作步骤:数据-变换-将左1以后的名称变量(评委12345)选入变量-将最左侧名称变量(球员)选入名称变量图。其实就是将希望转化为变量个案的内容选入变量,将希望成为名称的选入名称变量(可以选择部分变量进行转置,没有选择的变量就自动删除了)
3.3数据文件的合并
1.个案合并
俩数据文件拥有部分共同的变量,将两文件的数据进行合并。
操作步骤:打开需要合并的两个数据文件-数据-合并文件-添加个案-在左侧未成对变量中勾选变量名不同但实际上是对应的两变量进行配对-无法配对的变量如需保留直接选入右侧
图中未成对变量中*代表当前数据集变量,+外部数据集的变量,右侧新活动数据集中的变量是两数据集中可配对的变量。源01的意思是本文件书记标记0外文件数据标记1
2.变量合并
两数据文件拥有部分共同个案,以某个数据集为基准将另一个数据集中的变量添加至合并数据集中。
操作步骤:打开需要合并的两个数据文件-数据-变量升序排序-合并文件-添加变量-在左侧已排除的变量中,就是两数据集中已经配对的变量,外来数据集中的个案将不会合并到本文件中去。-如果想要勾选关键变量,首先要选中匹配关键要素的个案
图中①两个文件都提供个案:两个文件都存在这个关键变量并且提供个案。②非活动数据集为基于关键字的表的意思是,以本文件的关键变量为基准,外部文件的新变量加入到合并后的数据文件集中,匹配原文件。(就是外部文件以原文件的某个变量的个案为基准,原文件有外部文件也有的个案匹配他的其他变量)。③活动数据集为基于关键字的表的意思是,以外部文件的关键变量为基准,原文件的新变量加入到合并后的数据文件集中,匹配外部文件。
3.4数据文件的结构重组
1.将选定变量重组为个案
操作步骤:数据-重组-将选定变量重组为个案(将ph12345重组为个案ph值)-个案组标识选择标识变量(类似于序号)-要变换的表量:目标变量就是变量名称(ph值),框内选择从ph1到ph6,固定变量就是不进行重组的变量(测定人)-可以添加索引变量(批次)-立即重组数据
2.将选定个案重组为变量
操作步骤:数据-重组-将选定个案重组为变量-剩余同上
3.转置所有数据
见3.2转置
3.5分类汇总
操作步骤:数据-汇总-分别选入需要分类和汇总的变量-点击汇总变量后的函数按钮可选择平均数、中位数、最大值、最小值的计算汇总(点击可更改名称与标签)-个案数(计算每个分类变量中的数量)
3.6文件拆分
操作步骤:数据-拆分文件-选择分组方式选入变量
①分析所有个案不创建组:不按分组变量分类,乱序。②比较组:文件拆分后按比较组的形式输出。③按组织输出:按分组变量的取值,排序输出。
3.7选择个案
操作步骤:数据-选择个案-按照条件进行选择
基于时间或个案全距:只在范围内选择个案:如最大值15最小值11,就会留下11、12、13、14、15
使用过滤变量,激活输出复选框,按照情况进行选择。选择结果如图,不符合条件的内容被划掉。
3.8个案加权
操作步骤:①加权:数据-加权个案(选择要统计的变量比如;人数/成绩)-选择频率变量;②未加权:分析-描述统计-交叉表格-选择行列变量-可得出交叉表进行分析
图一经过加权,得到的就是喜欢不喜欢唱歌或跳舞的人的数据的计算
图二未经过加权得到的就是行数的计算,变量占了几行,所以要进行加权
3.9计算新变量
操作步骤:转换-计算变量-目标变量就是定义新变量的名称(新病叶率)-选入数值表达式(旧病叶率+5)-可对符合条件的再进行筛选,比如:只选择测定人等于1的(“-=“是不等于的意思)
3.10对个案内的值计数
操作步骤:转换-对个案内的值计数-目标变量是为计数结果设置的一个新变量名-变量是需要计数的变量并对其进行定义
3.11变量的重新编码
1.重新编码为相同变量(变量不变,部分个案更换为相同)
操作步骤:转换-重新编码为相同变量-旧值和新值代表左侧的选中的旧值转换为右侧的什么新值(旧到新要选择添加)-选择添加条件
2.重新编码为不同变量(添加新变量,用旧变量编码变成新变量)
操作步骤:转换-重新编码为不同变量-剩余同上
3.自动重新编码
操作步骤:转换-自动重新编码-更改变量名称,可以选择从最低值开始编码(从小到大)还 是从最高值开始编码(从大到小)
3.12个案等级排序
操作步骤:转换-个案等级排序-变量是需要排序的变量,排序标准是可以选择依据哪个标准进行排序-为结指定的等级(两数值一样,排序一样时,可以指定排序数值按照什么规则进行二次排序,比如说平均值就是两人分数一样,排名2/3,最后排名呈现时均呈现2.5,低则都按照2排序,高则都按照3排序唯一值则按照顺序排序2/3)
数据分析
4.1频数分析
操作步骤:分析-描述统计-变量:选入需要分析的变量
百分位数-①四分位数:25/50/75/100 分成四个大小相同的组。②分割点:将数据分为你想分成的份数。③百分位数:指定你想划分的百分位数
分布-①偏度:测量分布的对称性大于0为正偏态,小于零为负偏态,偏度超过误差两倍时是不对称的。②峰度:中点周围的观察值程度的测量,正峰度相当于观察值聚集在中点周围多,负就是聚集少,尾部较厚
格式-①多个变量:所有变量的表集中输出。②按变量组织输出:每个变量单独输出频数表。
输出:想要统计的方差、平均数等,还可输出一个频率分布百分比占比的表和频率直方图。
4.2描述性统计分析
操作步骤:分析-描述统计-描述-变量选入想描述的变量,还可勾选将标准化得分另存为变量(将变量标准化后存为一个新的变量)-输出
输出:描述统计表,可包括勾选的数字、范围、最小/大值、平均值、标准差、方差等。
4.3探索性分析
作用:对数据进行过滤和检查,可识别离群值、极值等,还可检验正态分布、方差是否齐性,数据提示转换方法、描述统计量和个案差异特征。
操作步骤:分析-描述统计-探索-因变量列表即要对哪一个变量进行分析-因子列表即自变量,想用哪个相关变量进行分类-标注个案类似于序号-输出(可选择输出数据或图或两者都)
①描述性的置信区间一般为95%。②M-估计量:最大似然估计。③界外值:五个最大值和五个最小值。④百分位数:输出百分之5、10、75、90等百分位的值。④箱图:按因子级别分组是对每一个图只显示一个因变量;不分组是对每一个图和分组变量并排显示因变量。⑤茎叶图:描述频数分布,茎代表十位数,叶代表个位数。⑥伸展与级别的levene检验:无代表不做方差齐性检验、幂估计求最佳幂转换值、已转换可以选择各种转换也可不进行转换
缺失值按列表排除个案,只要分析中有一个个案的缺失值,就直接将这个案在所有变量分析中剔除(只要缺一个,所有的操作分析都不能参加)。按对排除个案,只在当前分析中剔除。
输出:描述性统计量图、M估计值、极值、百分位数、常态性检验、方差齐性检查表和直方图。可分析离群程度、正态分布
2代表有两片叶子,第一个数据计算:(茎+叶)*叶宽=(1+0.5)*10000
斜线是标准正态分布,点是变量值,变量值越接近斜线,越是正态分布
此图为箱图,箱上边线代表75%下边线25%,中线中位数,箱的上杠是除去离群值(大于箱子1.5-3倍之内用圆圈代表)和极值(大于箱子三倍以上的值)以外的最大值和最小值
4.4联列表分析
先建立一个零假设:“认为两个变量不存在显著差异(同)“,然后进行卡方检验,通过概率是否达到5%来判断是否拒绝原假设。
操作步骤:分析-描述统计-交叉表格-勾选所需统计内容
输出:卡方检验显著性<0.05,否定原假设“两者相同“,认为两者不同,存在显著差异。(异)