结构方程模型(Structural Equation Model, SEM)是一种建立、估计和检验因果关系模型的方法。基于变量的协方差矩阵来分析变量之间的关系,因此也称为协方差结构分析。结构方程建模采用的是后验逻辑,即根据以往研究经验,假设构建网络结构模型。在模型构建完成后,通过检验模型整体拟合度,判断模型中各个路径是否达到显著来判断模型是否可用,之后逐一确定自变量对因变量的影响。 SEM是一种包含因素分析和路径分析的统计分析技术,适用于多变量间相互关系的研究,SEM包含测量模型和结构模型两个基本模型如下图所示:
为了方便小伙伴学习SEM的理论知识与建模实操,这里整理了的基础概念与基本建模步骤。 一、基础概念
①观察变量:观察变量又称为观测变量或显性变量或指标变量,研究者可以直接观察或直接测量获得,获得的数据可以转化为量化数据,例如:通过温度、湿度、pH、光照强度等测量指标来作为气候的观察变量。其图形通常以正方形或长方形表示,变量是实际测量的内容,也就是各类型环境因子的数值。
②拟合度:也叫适合度、配合度,是结构方程模型中最重要的指标。拟合度指标是假设的理论模型与实际数据的一致性程度,模型拟合度越高,代表理论模型与实际数据的吻合程度越高。常见拟合度指卡方值、近似均方根误差等。通过这一系列拟合度指标判断设计的模型是否合理,能够较完整地解释原始数据矩阵间的关联。
③标准路径系数:路径系数概念等同于回归分析中的回归系数,用于说明模型当中元素之间的关系,回归系数>0则说明两个元素呈正向关联,值越大则说明关联程度越强。除路径系数外一般还会给出路径系数检验的P值用于判断该路径系数是否显著,还会针对每个元素给出回归分析的R2值,来说明元素整体被其他元素的解释程度。
④测量模型:测量模型由潜在变量与观察变量组成,可看作一个回归模型,由观察变量向潜在变量回归。
⑤结构模型:结构模型部分表示潜变量间的因果关系,也可看作一个回归模型。
⑥误差变量:在测量模型中表示测量误差,在结构模型中表示干扰变因或残差项。
二、基本建模步骤
①模型设定
进行模型估计之前,先要根据理论分析或以往研究成果来设定初始理论模型,也就是初步拟定上述测量模型和结构模型;
②模型识别
要决定所设定的模型是否能够对待估计参数求解,在一些情况下,由于模型设定的问题,造成了模型不可识别的问题,如样本量过少所造成的待求系数太多而方程数目太少,一般情况下,样本与变量数之比为5:1左右较为合适;
③模型估计
模型参数可以采用几种不同的方法来估计,通常的方法包括最大似然法和广义最小二乘法,贝叶斯估计目前也经常被用到结构方程模型的参数估计当中;
④模型评价与修正
模型估计之后,须对模型的整体拟合效果和单一参数的估计值进行评价。如果模型拟合效果不佳,可以对模型进行修正来提高模型拟合效果。
小编为大家推荐两本吴明隆老师的书帮助学习Amos,分别是《结构方程模型—AMOS的操作与应用》和《结构方程模型—Amos实务进阶》。关注"环微分析"公众号,在对话框回复关键词【AMOS】,即可获得示例数据及相关学习资料!
⑤结构方程模型在微生物领域的应用
微生物群落研究逐渐从单一的群落结构研究转向分析群落与环境因素的关联研究当中,典型的环境因子分析方法如典型相关分析/冗余分析(CCA/RDA)、互作网络图、方差分解分析(VPA)等,这些分析能帮助我们逐一比较待选的环境因子与微生物群落数据间的关联性,深入挖掘对群落结构有影响的个别环境因子。但仍需注意的是,环境对微生物群落的影响是间接的,例如:气温因素影响了植物的生长状态,植物的生长状态的变化影响土壤微生物的群落结构,而微生物的群落变化又引起土壤一些微量元素的变化。可以看到,这是个复杂的网络关系,微生物群落是其中的一个环节,过往研究环境因子线性影响微生物是不适用的。为了能够完整呈现这种网络状影响关系,微生物研究领域采用了SEM模型。
⑥常见的结构方程建模工具
结构方程建模软件很多,其各有优劣,大家可以根据自己的具体需求选择。
Mplus是目前最受推崇的SEM软件。虽然收费,但是版本更新、技术支持都很快。Mplus需要自己写语法命令,门槛略高。也有很多学者用R语言做SEM,主要是用lavaan包。R的优点是免费,缺点是稳定性、更新速度不如付费软件,再就是R上手需要一定的语言基础。
Amos是一款功能全面的结构方程建模软件,全图形界面,易上手,目前最普及。Amos最开始独立发展,后来被IBM收购,现在已经是SPSS软件的一个模块了。该软件拥有图形化的界面,可通过对回归分析、因子分析、相关性分析和方差分析等传统多元数据分析方法进行扩展,为你的理论研究提供更多的支持。除此之外,Amos26还可以快速创建模型以检验变量之间的相互影响及其原因,并用标准方法以及在此基础上扩展的方法进行多元分析,获得更精确、丰富的综合分析结果。
⑦Amos界面简介
(1)下载SPSS Amos 26.exe,双击进行安装。具体下载安装步骤请小伙伴们自己上网搜索学习,我们侧重于Amos软件的使用;
(2)安装完成之后,点击桌面左下角【开始】图标,在菜单栏中找到并拖动【IBM SPSS Amos 26 Graphics】图标到电脑桌面,创建桌面快捷方式,后续使用直接双击快捷方式图标即可运行;
(3)【Amos Graphics】软件主窗口有三大窗口界面,包括左侧的浮动绘图工具箱区,中部的主功能窗口和右侧的因果路径图假设模型绘制区。如下图所示;
(4)浮动绘图工具窗口为【Amos Graphics】应用软件的核心,如果能熟知各种工具图标的功能与操作,则能快速完成各种模型图的绘制与统计量的估计。执行【Amos Graphics】软件上方【功能列】菜单的程序,多数功能均与点击工具列图像后执行的程序相同。
三、实例分析
本文以一个实例分析来演示AMOS建模,即探究厌氧消化过程中氨氮浓度(TAN),可移动遗传原件(MGEs),微生物群落(Microbial Community)和抗生素抗性基因(ARGs)四个观察变量之间的相互关系。 (一)数据处理
首先准备观察变量数据,包括氨氮浓度(TAN),可移动遗传原件(MGEs),微生物群落(Microbial Community)和抗生素抗性基因(ARGs)。AMOS软件可以导入.sav格式或.xlsx格式的数据,包含TAN、Microbial Community、MGES、ARGs等数据信息。数据必须为连续型变量且没有缺失数据,只有连续型数据才可以继续分析,如果有缺失,可以用boostrap方法填补缺失的数据。
Amos可以读取SPSS数据编辑窗口所建立的原始数据文件(原始数据最好符合正态分布),或利用原始数据文件所建立的相关矩阵、协方差矩阵。
①将数据导入SPSS,保存为sav格式;
②利用SPSS输出相关矩阵步骤。选择“分析”>“相关”>“双变量”,弹出对话框,将4个目标变量“TAN”,“Microbialcomunity”,“MGEs”和“ARGs”放入变量框,相关系数选择“pearson”,显著性检验选择“双尾”,点击“确定”。按“选项”按钮,出现双变量相关选项对话窗口,勾选“交叉积”与“协方差”,按“继续”回到描述性统计变量对话窗口,按“OK”进行计算。4个变量间相关矩阵分析结果如下表所示;
③数据整理。求得变量间相关系数矩阵、标准差和平均数后,在SPSS(数据浏览窗口)中整理如下表格;
提示:n为样本量,corr为相关系数关键词,stddev为标准差关键词,mean为变量平均数关键词,标准差和平均数列数据在进行平均数结构分析时会用到。
(二)AMOS建模实操
AMOS通过路径分析观察变量间的因果关系,为了更好地理解结构方程建模,我们结合示例数据在AMOS中实现路径分析来进行说明。
①建立路径模型图
点击【add a unique variable to an existing variable】图标,增列误差变量到已有的变量中;
使用【Move objects】移动图形位置,使用【Touch up a variable】微调变量及路径;
在Amos的模型分析中,作为观察变量均要增列一个误差变量,此误差变量的默认初始值为1;
提示:残差的回归系数均设为1,观测变量中的其中一个回归系数设为1。如果是利用【Draw a latent variable or add an indicator to a latent variable】直接生成的结构,则会自动设置其中一个观测变量的回归系数为1。
②设定误差变量的变量名称
在误差变量圆形的图标上按右键,选取【对象属性】( Object Properties ...)快速选单,出现【Object Properties】对话窗口,在【Variable name 】(变量名称)方盒键入误差变量的名称,如e1 ,e2。由于误差变量英文是error,故通常以简写的 e1、 e2、e3…表示。选中残差,右键选择【Object Properties】,分别写上e1,e2,e3,e4;
③设定观察变量
选择数据列表【List variables in data set】工具图像钮,出现数据集中的变量对话窗口,选取每个变量, 按住鼠标左键不放,直接拖至观察变量中,观察变量会出现变量注解的名称;
④导入数据文件 点击【Select data files】工具图像标,出现数据文件对话窗口;
按【File Name】选取数据文件,按【OK】。选取数据文件后,在数据文件(Data File)的对话窗口中会出现文件名称及数据文件的样本数;
可以通过【View Date】查看输入的数据。若是选取数据文件没有错误,按下【OK】;
⑤设定文字报表要呈现的统计量
点击【Calculate estimates】分析属性工具图像钮,出现Analysis Properties对话窗口,按Ouput标签钮,勾选要呈现的统计量,此部分可根据模型图所需加以选取;
⑥将路径模型图存盘与计算估计值
点击【Save the current path diagram】(储存目前的路径图)工具图像钮,将模型路径图存盘,点击【Calculate estimates】(计算估计值)工具图像估计路径图的各统计量;
如果模型路径没有存盘,则在按(计算估计值)工具图像后,会先出现(另存新文件)对话窗口,要先输入文件名,再按(储存)钮,关闭另存新文件对话窗口后,才会执行(计算估计值)的程序。在模型(Model)方盒中,如果出现[OK: Default model](OK:表示模型估计值计算完成),则可显示参数估计值,表示理论模型的界定没有问题。若是模型无法识别, 或假设模型协方差矩阵与样本协方差矩阵差异太大,则模型无法收敛,此时在[Molele]方盒中会出现【xx:模型名称】。若模型可以收敛,在模型信息窗口第四个方盒中的【计算摘要】(Computation Summary )中,会出现最小化完成的程序,模型适配度卡方检验值与自由度;
⑦显示路径系数图
点击【View the input path diagm(model specification)】 结果输出按钮,可以使路径图显示出其路径系数,如下图所示:
如果点击下图按钮,可以选择非标准化路径系数和标准化路径系数。在比较变量间关联强度的时候,需要使用标准化路径系数;
⑧模型评价
点击【View Text】浏览文字工具按钮,会弹出一个新的窗口,可以查看各项统计数据。如下图,结果以索引的方式给出,包括变量的描述性结果、参数估计、模型拟合等部分;
模型适配度(Model Fit)计量数据如下图,上述模型适配度统计量会呈现预设模型(Default model)、饱和模型(Saturated model)和独立模型(Independence model)三种不同模型的适配统计量,在模型适配统计量判别方面需以预设模型适配统计量为主;
测量模型评价——参数和预设模型的关系是否合理?如上图所示,标准化路径系数应该在(-1,+1)之间,并且其符号要符合实际意义。如果参数估计值不合理,需要对模型进行适当的修正。
整体模型评价——模型拟合优度指数有很多,包括卡方值、规范拟合指数(NFI)、不规范拟合指数(NNFI)、比较拟合指数(CFI)、增值拟合指数(IFI)、拟合优度指数(GFI)、调整后的拟合优度指数(AGFI)、相对拟合指数(RFI)、均方根残差(RMR)和近似误差均方根(RMSEA)。其中,卡方检验的原假设为测量模型的变量关系和实际数据之间的关系一致(即我们假设的测量模型能够真实的反应数据之间的关系),故卡方值越大,越容易拒绝原假设,我们知道,随着样本量的增大,卡方值会随之变大,故有人会将P小于0.05的结果归咎于样本量。因此,卡方值不能很好地反映实际拟合程度。下面对这些指标的适用范围做一个总结:
由示例数据分析结果可知,整体模型模型适配度卡方值为CMIN=21.6,显著性概率值 P=0<0.05,达到显著水平,GFI<0.9未达模型适配标准,表示假设模型隐含的矩阵与观察数据所得矩阵间无法适配;
⑨模型修正
如果初始模型与样本数据无法适配,可以进行模型的修正,在结构模型中可把不显著的因果路径删除;
⑩路径图导出
Amos里不能输出图形,根据个人需要路径图需借助画图软件自行完成。