一、教学内容
温忠麟
华南师范大学心理学院
引言
问卷数据建模的前期工作,就像是一栋大楼的奠基工程,基础越扎实,建立的模型和分析结果越可信。
同样一套问卷数据, 建模前期工作不同, 可能得到不一样的模型和分析结果。
有的原始数据错误什么方法都补救不了检查是否有异常的被试、变量和数值。
如果某个被试在每个题目的得分都相同或者呈现很规律的模式,则是不合作的被试,应当剔除。
如果题目得分的最大或最小值出现在预设范围之外,需要去检查相应的被试及其原因。
如何形容一个人长得特别漂亮?
缺失类型有三种(Rubin, 2004)
完全随机缺失(MCAR)
随机缺失(MAR)
非随机缺失(NMAR)
MCAR指某个变量X缺失的概率与其本身和研究中的其他变量都无关。
MAR指某个变量X缺失的概率与研究中的某个或某些变量有关,但与X本身无关。
NMAR指某个变量X缺失的概率与X本身的取值有关(可能与其他变量也有关)。
心理学的研究生考试成绩有三科笔试分数、笔试总分和面试分数,此外还有性别、年龄等人口学变量。
情况1:除了临时生病的外,都参加了考试,则三科笔试分数缺失的概率与数据中的变量都无关,属于MCAR。
情况2:只有笔试分数上线的考生才有资格面试,则面试缺失的概率与面试分数无关,但与笔试分数有关,属于MAR
情况3:最后一科缺失的分数是因为考生觉得前面的考试没有考好而且该科很难而弃考,则最后一科缺失的概率与该科和前面的考试分数都有关,属于NMAR。
MCAR:缺失数据是可以忽略的,简单地将有缺失的被试删除(列删法,listwise)就可以了MAR:如果对引起缺失的变量与要估计的参数
无关,则缺失数据也是可以忽略的
缺失种类不明,只要缺失数据很少(如5%之内),删除有缺失的被试通常影响不大
NMAR或MAR:待估参数与引起缺失的变量有
关,缺失是不可忽略的,不能简单地将缺失数据删除,通常的做法是缺失值填补(imputation)。
SPSS和Mplus等软件均提供了多种填补的方法, 包括均值填补、回归填补、EM算法和多重填补
。EM算法和多重填补较好。
使用常用的SEM软件,可以不用填补缺失值,而在程序语句中指明缺失值。软件默认使用全息极大似然估计法(full information maximum likelihood)
加入辅助变量(auxiliary variables)作为数据缺失与否的协变量
例如,Mplus程序
DATA: FILE IS ex3.17.dat; VARIABLE: NAMES ARE u y x; CATEGORICAL IS u;
MISSING IS y (99);
ANALYSIS: ESTIMATOR = MLR; INTEGRATION = MONTECARLO; MODEL: y ON x;
u ON y x;
不少统计方法对变量有正态性假设,因而需要分布检验(检验方法可参见温忠麟,心理与教育统计,2016)。
不少基于正态分布的统计方法都有一定的稳健性,除非数据严重非正态(偏态系数或峰态系数的绝对值超过10),否则数据非正态对结果的影响通常不大。
如果数据严重非正态,首先要考虑样本是否具有代表性,若样本无代表性,则分析结果不能推论到样本以外的情形。
选择合适的估计方法,如极大似然(maximum likelihood, ML)估计基于正态假设,但加权最小二乘(weighted least squares, WLS)无需分布假设
数据变换,希望变换后的数据是正态或近似正态
即使不拟使用结构方程分析潜变量,而是使用量表得分(均值或总分)进行统计分析, 也需要建立测量模型,使用验证性因子分析(CFA)做量表评价,为后续的统计建模分析奠定基础。
使用现有的或者改编的量表进行测量时,题目与潜变量(因子)的从属关系是已知的, 多维量表的维度(一个维度对应于一个分量表)也是已知的。
由于被试和施测环境的差异,得到的数据未必符合已有的理论模型。
做CFA,用一个符合构念的测量模型去拟合数据。(一个构念做一个CFA,不要全部放在一起)
一般认为,CFI 和TLI (NNFI)都大于0.9
(越大越好),RMSEA 和SRMR 都小于
0.08(越小越好),则模型拟合良好。
删除CFA中因子负荷低的题目,将剩下题目做
CFA并报告拟合指数。
从心理测量的角度看,每个因子的全部题目是测 量该因子的一组代表性样本。删除题目是否适当
,主要通过专业判断删除之后剩下的题目是否还有代表性(所以删除的题目不能太多)。
如果每个因子剩下的题目还有代表性,仍可以有 效测量所测因子的行为或特质,则删除题目是可以接受的。
如果删除题目之前已经报告CFA拟合指数并且拟合良好,删除题目之后可以不再报告, 因为删除负荷低的题目,通常总是可以提高模型拟合程度。
最好报告删除题目之后的CFA拟合指数。删除题目后的结果与前人的结果可能没有可比性
多维量表拟合不好——换一个模型试试?
典型的CFA是严格独立分群模型(Independent clusters model, ICM-CFA) 每个指标只从属于一个因子
如果模型拟合欠佳,可以考虑探索性结构方程模型(ESEM)
,允许跨因子负荷,可以得到比较准确的潜变量关系(麦玉娇, 温忠麟, 2013)。
题外话:数据驱动与探索创新
Wen ZL 17
一般的情况下(题目间的误差不相关),α 系数是合成信度的下限。
如果α系数高到可以接受(如能力测验0.7以上,人格测验0.6以上),合成信度就可以接受。
如果α系数过低,应当使用CFA计算合成信度。
需要报告每个维度(分量表)的α系数。 若整份量表分数需要合成总分使用,还应当报告量表的同质性系数,如同质性系数足够
高(0.5以上),说明合成总分有意义(叶
宝娟, 温忠麟, 2012; 温忠麟, 叶宝娟, 印刷中),并报告合成信度。
计算同质性系数的Mplus程序(改编自叶宝娟,温忠麟,2012)
DATA: FILE IS p.dat; VARIABLE: NAMES ARE y1-y8; MODEL: G BY y1-y8*(a1-a8);
F1 BY y1-y4*(b1-b4); F2 BY y5-y8*(b5-b8);
y1-y8 (e1-e8); G@1;
F1@1; F2@1;
G with F1 @0; G with F2 @0; F1 with F2 ®;
MODEL CONSTRAINT: new(H1-H8);
H1= a1+a2+a3+a4+a5+a6+a7+a8; H2= b1+b2+b3+b4;
H3= b5+b6+b7+b8;
H4= e1+e2+e3+e4+e5+e6+e7+e8;
H5= H12+H22+H32+2H2H3*r; H6= H4+H5;
H7= H12/H6 !H7等于同质性系数点估计值
H8= H5/H6; !H8等于合成信度点估计值OUTPUT: CINTERVAL;
Wen ZL 21
单因子法(单因子解释的总变异不超过40%, 认为共同方法偏差不严重)
推荐引入方法因子进行检验(Podsakoff, Mackenzie, Lee, & Podsakoff, 2003),即建立双因子模型(顾红磊, 温忠麟, 方杰, 2014; 顾红磊, 温忠麟, 2017)
比较引入方法因子前后模型拟合指数的变化例如,CFI和TLI提高幅度不超过0.1,RMSEA和SRMR降低幅度不超过0.05,说明不存在严重的共同方法偏差
从单因子模型开始,根据量表内容逐步分离因子;或者从一个量表一个因子的模型开始,根据量表内容逐步合并因子
如果两个或多个量表的题目当作一个因子的题目拟合模型,拟合指数没有明显变差(例如,CFI和TLI降低幅度不超过0.03,RMSEA 和SRMR提高幅度不超过0.01),说明变量区分效度低。
所有题目放在一起的单因子模型,应当是拟合最
差的一个。
一个量表一个因子的模型是系列模型(不考虑方 法因子)中拟合最好的,拟合指数应当达到可以接受的标准才能进行后续SEM分析。
如果一个量表一个因子的模型拟合不足,可以考 虑用各变量(量表)的合成分数进行建模(前提是合成信度可以接受。
检验共同方法偏差 & 区分效度
使用SEM,样本容量需达到题目(指标) 数量的10倍以上,或者自由参数的5倍以上
(侯杰泰, 温忠麟, 成子娟, 2004)。
打包法可使指标数据质量变好、模型拟合程度提高,而且估计偏差不大,误差可校正。
程建模(吴艳, 温忠麟, 2011)
打包建模介于高阶因子建模和显变量建模之间
回归分析中,若自变量间相关很高,则可能存在多重共线性问题,导致参数估计出现偏差,或者标准误很大,模型失真。
一般各自变量的方差膨胀因子(variance inflation factor, VIF)皆小于5,认为不存在多重共线性问题,VIF小于10说明多重共线性问题不严重(O’Brien, 2007)。
其中,R2是该自变量对其他自变量做回归得到的测定系数(即该自变量的变异被其他自变量解释的比例)。
VIF >5(或10),则
R2超过0.8(或0.9)。
也有文献将1 R2 称为容许度或容忍度
(tolerance),VIF >5(或10)意味着容许度<0.2
(或0.1)。
社科研究很少碰到多重共线性。
中介效应模型中,若中介变量和自变量相关
很高(如高达0.9,此时VIF=5.26),则也有多重共线性问题,影响中介效应和直接效应的估计精确度和稳定性。
调节效应模型中,变量中心化可以减少非本质的共线性问题(温忠麟, 刘红云, 侯杰泰, 2012)。
社科中推论因果关系的三个经典准则是(Cook & Campbell, 1979; 温忠麟, 2017):
因在果之前发生因和果共同变化
排除因果联系外的其他解释
模型反映了变量之间的关系和设定。
对于直接关联的两个变量,可能是并列的相关关 系,也可能是先因后果的影响关系(通常用箭头表示)。
要求模型中的每个箭头连结的两个变量的先后顺序都有理论、文献或者生活经验的支持。
题外话:碰到缺乏依据的建模直接明说,不要笼统批评数据驱动
问卷研究中如何确定变量谁先谁后
如果X 是比Y 更加本质的(或者是长久的、稳定的、客观的
)属性,则X 在Y 的前面(温忠麟,叶宝娟, 2014)
颠倒两个变量的顺序,看哪一个更容易解释(温忠麟, 2017) 此外,交叉滞后设计(白学军,
2012; Kenny, 1975),获取历时
性的数据,看看两个变量究竟谁影响谁,或者谁影响更多一些
如果变量A是原因,变量B是结果,用下标表示两次测量的结果,那么A1与B2的相关,应该明显大于B1与A2的相关。同时,因为原因相对稳定, A1与A2的相关也会大于B1与B2的相关。
常见的控制变量是人口学变量,此外还要根据前人研究适当考虑其他的控制变量。
做法:分别做自变量和因变量(SEM则使用指标)对控制变量的回归,用残差作为变量的观测值(温忠麟, 2017)。
也可以把控制变量放在模型中作为协变量从而实现变量的统计控制。
假设已经明确自变量在前、因变量在后无关变量Z 的可能位置如下:
(1)在X前面, (2)与X并列,
(3)在X之后、Y之前, (4)与Y并列,
(5)在Y之后。
Z为并列变量
rYX
b1
b2 rXZ
中介变量
rYX
c ab
前置变量要控制以排除虚假效应
但不能说有共同起因(也称第三变量)的两个变量因果关系就不成立了,还要看直接效应才能做出判断。
看两个例子,被试都是6-12岁小学生。
例1中,被试智力测验成绩与身高相关,在排除共同的起因年龄后,两者不再相关(同年级学生智力测验成绩与身高无关);
例2中,被试体重与身高相关,在排除共同的起因年龄后,两者仍然相关(同年级学生仍然是体重与身高相关)。
要研究(外貌)吸引力对爱情的影响,理论上说空间距离、相似性和熟悉度都是吸引力的前置变量或者并列变量,需要加以控制。
自变量的前置变量和并列变量都有可能是因果关系的调节变量(moderator)。
任何直接因果,总可以设法引入中介变量,分解出一些间接因果关系。
引入中介变量可以了解原因是如何影响结果的例如,酒驾增加交通意外:
自变量:血液中的酒精浓度,
因变量:交通事故频率,
中介变量:反应时间、行车速度等
无论中介变量有几个、中介效应有多大,都改变不了酒驾增加交通意外的因果事实。
心理学研究结果的可重复性引发关注
建模前期工作影响研究结果,进而影响结果的可重复性。
问卷数据建模之前的工作,就像是一栋大楼的奠基工程,基础越扎实,建立的模型和分析结果越可信,从而有更高的可重复性。
题外话:关于重复性的思考