编者
潜类别分析(LCA)是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。LCA的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联,并使各潜在类别内部的外显变量之间满足局部独立的要求。
本文是潜变量系列文章第一篇 !
观察性研究包括横断面研究、队列研究、病例对照研究。
本篇推文以横断面研究为例进行复现
本公众号回复“ 沙龙”即可获得 PPT,数据等资料 |
案例分享
2022年6月,中国北京大学学者在《Bmc Geriatrics》(三区,IF=4.1)发表题为:"Multimorbidity patterns and associated factors in older Chinese: results from the China health and retirement longitudinal study" 的研究论文。
一、摘要
标题:中国老年人的多病模式和相关因素:来自中国健康与退休纵向研究的结果
背景: 本研究旨在调查中国老年人的多病模式及其相关因素。
方法: 从2018年中国健康与退休纵向研究(CHARLS)中抽取了10479名年龄至少为60岁的参与者。根据14种自我报告的慢性疾病进行潜在类别分析(LCA),以确定不同的多病类别。多项logit模型用于分析多病模式的相关因素,重点关注个人的人口统计学特征、社会经济地位(SES)和健康行为。
结果:在10,479名参与者(平均年龄【标准差】:69.1【7.1】)中,65.6%被确定患有多种疾病。LCA确定了五个多病类:相对健康类(49.8%)、血管类(24.7%)、呼吸类(5.6%)、胃病类(14.5%)和多系统疾病类(5.4%)。以相对健康人群为参照的多项logit分析显示,老年和女性参与者更有可能属于血管疾病和多系统疾病人群。社会经济地位高的人患血管疾病的概率明显更高。曾经吸烟与患呼吸系统疾病和多系统疾病的概率较高有关。体力活动与被划分到血管类、呼吸类和多系统类的几率较低相关。
结论:不同的多病模式意味着预防和护理策略应针对一组疾病而不是单一疾病。对于有危险因素的个体,应注意预防干预。
二、研究设计
P(Population)研究对象:60岁以上的来自2018年中国健康与退休纵向研究(CHARLS)的参与者
O(Outcome)结局:存在的14种慢性病
S(Study design)研究类型:横断面研究
三、研究结果
1.人群特征
平均年龄为69.1岁,其中60-64岁的占31.9%,65-69岁的占28.3%,70岁及以上的占39.8%。女性比例略高(51.2 vs. 48.8)。在所有参与者中,6,489人(60.4%)生活在农村地区,超过一半(54.3%)的教育水平低于小学。医疗保险覆盖率高(96.9%);然而,超过60%的人被NRCMS覆盖,福利待遇有限,报销率低。
2.多病症和多病模式的患病率
高血压(47.2%)、关节炎(44.7%)和胃病(31.6%)是最普遍的疾病。在 7,049 例多病患者中,高血压是最普遍的共存疾病(超过 60% 的多病患者),其次是关节炎 (58.8%)、胃病 (43.5%)、慢性心脏病 (36.6%) 和血脂异常 (35.8%)。
3.多病模式的五类模型
基于与总体平均值相比的超额项目响应概率(图 1),我们命名了五个类别:相对健康类、血管类、呼吸类、胃关节炎类和多系统发病率类。近一半(49.8%)的参与者属于相对健康的类别,而5.4%的参与者属于多系统发病率类别。约24.7%、14.5%和5.6%的参与者分别被分配到血管类、胃关节炎类和呼吸类。
4.多病模式的相关因素
与60-64岁组的参与者相比,65-69岁年龄组和70+年龄组的参与者更有可能被分为多系统发病率等级(RRR=1.37和1.46),血管等级(RRR=1.33和1.36)和呼吸等级(RRR=1.54和2.17)。除呼吸类外,女性在几乎所有多病类别(与相对健康类别相比)的概率显著更高,血管类、胃关节炎类和多系统发病率类的RRR分别为1.56(95%CI:1.35-1.81)、1.65(95%CI:1.38-1.98)和1.90(95%CI:1.44-2.50)。
统计学方法
1.潜在类别分析
根据 14 种情况,进行 LCA 以确定 10,749 名参与者中不同慢性病的聚类模式。检查了 2 到 6 个类别,并根据我们对各种模型拟合统计量的评估选择了最佳拟合解决方案。
2.影响因素分析
在选择最佳拟合解决方案并将个体分类为不同类别后,采用多项式logit分析来检验多病症类别的影响因素,同时将所有选定的社会人口学和生活方式特征输入模型。
3.统计分析软件
使用 Mplus 6.1 版和 Stata 17 版进行分析。P值<0.05被认为具有统计学意义。
R语言复现
1、变量表
变量名 | 标签 | 变量类型 | 分类变量的编码 |
r4agey | 年龄 | 连续变量 | |
agef | 年龄 | 3分类 | 60-64; 65-69; ≥70 |
ragender | 性别 | 2分类 | 1:男性; 2:女性 |
h4rural | 居住地 | 2分类 | 1:农村; 2:城市 |
r4hibpe | 高血压 | 2分类 | 1:无; 2:有 |
r4diabe | 糖尿病 | 2分类 | 1:无; 2:有 |
r4cancre | 癌症 | 2分类 | 1:无; 2:有 |
r4lunge | 肺部疾病 | 2分类 | 1:无; 2:有 |
r4hearte | 心脏疾病 | 2分类 | 1:无; 2:有 |
r4stroke | 中风 | 2分类 | 1:无; 2:有 |
r4psyche | 精神疾病 | 2分类 | 1:无; 2:有 |
r4arthre | 关节炎或风湿病 | 2分类 | 1:无; 2:有 |
r4dyslipe | 血脂异常 | 2分类 | 1:无; 2:有 |
r4livere | 肝脏疾病 | 2分类 | 1:无; 2:有 |
r4kidneye | 肾脏疾病 | 2分类 | 1:无; 2:有 |
r4digeste | 消化系统疾病 | 2分类 | 1:无; 2:有 |
r4asthmae | 哮喘 | 2分类 | 1:无; 2:有 |
r4memrye | 记忆相关疾病 | 2分类 | 1:无; 2:有 |
r4drinkev | 饮酒 | 2分类 | 1:否; 2:是 |
eduf | 教育 | 2分类 | 1:小学以下; 2:小学及以上 |
marf | 婚姻状态 | 2分类 | 1:已婚; 2:未婚 |
comb | 慢性病数量 | 连续变量 | |
combf | 多病症 | 2分类 | 1:否; 2:是 |
combfn | 慢性病数量分类 | 7分类 | 0:0; 1:1; 2:2; 3:3; 4:4; 5:5;6:6;7:≥7 |
smokef | 吸烟 | 2分类 | 1:否; 2:是 |
medinsure | 医疗保险 | 5分类 | 1:无; 2:UEBMI; 3:居民 MI; 4:NRCMS; 5;其他MI |
pa | 体力活动 | 4分类 | 1:无; 2:轻度; 3:中度; 4:重度 |
preincomef | 家庭人均收入 | 6分类 | 1-5:五分位数分类; 6:缺失 |
2、前期数据处理
3、基线特征描述
基于autoReg包分析基线特征(附上部分结果截图,由于作者没有详细说明部分变量的计算方法,变量与原文有出入,样本量相差一人)
4、潜类别分析
基于poLCA包进行潜在类别分析,基于文章检查了 2 到 6 个类别,并根据模型拟合统计量的评估选择了最佳拟合解决方案为5分类,详细参数介绍可以看看别的推文哦
R语言poLCA包绘制的图与原文的折线图不太一样,原文折线图是基于Mplus绘制的,但表达的是一样的内容
潜在类别分析建模后将分类整合到原始数据中
5、缺失数据填补
原文在变量介绍中最后讲解了对于变量缺失值如何处理,但没有给出具体的填补参数,小编以之前介绍的mice包填补缺失值,不了解的可以看看之前的推文
6、影响因素分析
结局指标为无序多分类变量(多病聚类),基于nnet包的multinom函数使用多项式logistic回归分析。结果的部分截图如下,果展示了从编码为2 的分类的logistic回归结果,这是由于模型默认以最小的编码(此处为1)为对对照。
后记
本文举例说明了潜在类别分析在横断面研究中的应用,当然也适用于纵向研究中。