编者

潜类别分析(LCA)是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。LCA的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联,并使各潜在类别内部的外显变量之间满足局部独立的要求。

本文是潜变量系列文章第一篇 !

观察性研究包括横断面研究、队列研究、病例对照研究。

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言

  本篇推文以横断面研究为例进行复现

本公众号回复“  沙龙”即可获得   PPT,数据等资料

案例分享

2022年6月,中国北京大学学者在《Bmc Geriatrics》(三区,IF=4.1)发表题为:"Multimorbidity patterns and associated factors in older Chinese: results from the China health and retirement longitudinal study" 的研究论文。

r语言单因素回归结果分析 r语言单因素logistic分析_多系统_02

一、摘要

标题:中国老年人的多病模式和相关因素:来自中国健康与退休纵向研究的结果

背景: 本研究旨在调查中国老年人的多病模式及其相关因素。

方法: 从2018年中国健康与退休纵向研究(CHARLS)中抽取了10479名年龄至少为60岁的参与者。根据14种自我报告的慢性疾病进行潜在类别分析(LCA),以确定不同的多病类别。多项logit模型用于分析多病模式的相关因素,重点关注个人的人口统计学特征、社会经济地位(SES)和健康行为。

结果在10,479名参与者(平均年龄【标准差】:69.1【7.1】)中,65.6%被确定患有多种疾病。LCA确定了五个多病类:相对健康类(49.8%)、血管类(24.7%)、呼吸类(5.6%)、胃病类(14.5%)和多系统疾病类(5.4%)。以相对健康人群为参照的多项logit分析显示,老年和女性参与者更有可能属于血管疾病和多系统疾病人群。社会经济地位高的人患血管疾病的概率明显更高。曾经吸烟与患呼吸系统疾病和多系统疾病的概率较高有关。体力活动与被划分到血管类、呼吸类和多系统类的几率较低相关。

结论:不同的多病模式意味着预防和护理策略应针对一组疾病而不是单一疾病。对于有危险因素的个体,应注意预防干预。

二、研究设计

P(Population)研究对象:60岁以上的来自2018年中国健康与退休纵向研究(CHARLS)的参与者

O(Outcome)结局:存在的14种慢性病

S(Study design)研究类型:横断面研究

三、研究结果

1.人群特征

平均年龄为69.1岁,其中60-64岁的占31.9%,65-69岁的占28.3%,70岁及以上的占39.8%。女性比例略高(51.2 vs. 48.8)。在所有参与者中,6,489人(60.4%)生活在农村地区,超过一半(54.3%)的教育水平低于小学。医疗保险覆盖率高(96.9%);然而,超过60%的人被NRCMS覆盖,福利待遇有限,报销率低。

r语言单因素回归结果分析 r语言单因素logistic分析_拟合_03

2.多病症和多病模式的患病率

高血压(47.2%)、关节炎(44.7%)和胃病(31.6%)是最普遍的疾病。在 7,049 例多病患者中,高血压是最普遍的共存疾病(超过 60% 的多病患者),其次是关节炎 (58.8%)、胃病 (43.5%)、慢性心脏病 (36.6%) 和血脂异常 (35.8%)。

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言_04

3.多病模式的五类模型

基于与总体平均值相比的超额项目响应概率(图 1),我们命名了五个类别:相对健康类、血管类、呼吸类、胃关节炎类和多系统发病率类。近一半(49.8%)的参与者属于相对健康的类别,而5.4%的参与者属于多系统发病率类别。约24.7%、14.5%和5.6%的参与者分别被分配到血管类、胃关节炎类和呼吸类。

r语言单因素回归结果分析 r语言单因素logistic分析_多系统_05

4.多病模式的相关因素

与60-64岁组的参与者相比,65-69岁年龄组和70+年龄组的参与者更有可能被分为多系统发病率等级(RRR=1.37和1.46),血管等级(RRR=1.33和1.36)和呼吸等级(RRR=1.54和2.17)。除呼吸类外,女性在几乎所有多病类别(与相对健康类别相比)的概率显著更高,血管类、胃关节炎类和多系统发病率类的RRR分别为1.56(95%CI:1.35-1.81)、1.65(95%CI:1.38-1.98)和1.90(95%CI:1.44-2.50)。

r语言单因素回归结果分析 r语言单因素logistic分析_多系统_06

统计学方法

1.潜在类别分析

根据 14 种情况,进行 LCA 以确定 10,749 名参与者中不同慢性病的聚类模式。检查了 2 到 6 个类别,并根据我们对各种模型拟合统计量的评估选择了最佳拟合解决方案。

r语言单因素回归结果分析 r语言单因素logistic分析_拟合_07

2.影响因素分析

在选择最佳拟合解决方案并将个体分类为不同类别后,采用多项式logit分析来检验多病症类别的影响因素,同时将所有选定的社会人口学和生活方式特征输入模型。

r语言单因素回归结果分析 r语言单因素logistic分析_拟合_08

3.统计分析软件

使用 Mplus 6.1 版和 Stata 17 版进行分析。P值<0.05被认为具有统计学意义。

R语言复现

1、变量表

变量名

标签

变量类型

分类变量的编码

r4agey

年龄

连续变量


agef

年龄

3分类

60-64; 65-69; ≥70

ragender

性别

2分类

1:男性; 2:女性

h4rural

居住地

2分类

1:农村; 2:城市

r4hibpe

高血压

2分类

1:无; 2:有

r4diabe

糖尿病

2分类

1:无; 2:有

r4cancre

癌症

2分类

1:无; 2:有

r4lunge

肺部疾病

2分类

1:无; 2:有

r4hearte

心脏疾病

2分类

1:无; 2:有

r4stroke

中风

2分类

1:无; 2:有

r4psyche

精神疾病

2分类

1:无; 2:有

r4arthre

关节炎或风湿病

2分类

1:无; 2:有

r4dyslipe

血脂异常

2分类

1:无; 2:有

r4livere

肝脏疾病

2分类

1:无; 2:有

r4kidneye

肾脏疾病

2分类

1:无; 2:有

r4digeste

消化系统疾病

2分类

1:无; 2:有

r4asthmae

哮喘

2分类

1:无; 2:有

r4memrye

记忆相关疾病

2分类

1:无; 2:有

r4drinkev

饮酒

2分类

1:否; 2:是

eduf

教育

2分类

1:小学以下; 2:小学及以上

marf

婚姻状态

2分类

1:已婚; 2:未婚

comb

慢性病数量

连续变量


combf

多病症

2分类

1:否; 2:是

combfn

慢性病数量分类

7分类

0:0; 1:1; 2:2; 3:3; 4:4;

5:5;6:6;7:≥7

smokef

吸烟

2分类

1:否; 2:是

medinsure

医疗保险

5分类

1:无; 2:UEBMI; 3:居民 MI;

4:NRCMS; 5;其他MI

pa

体力活动

4分类

1:无; 2:轻度; 3:中度; 4:重度

preincomef

家庭人均收入

6分类

1-5:五分位数分类; 6:缺失

2、前期数据处理

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言_09

3、基线特征描述

基于autoReg包分析基线特征(附上部分结果截图,由于作者没有详细说明部分变量的计算方法,变量与原文有出入,样本量相差一人)

r语言单因素回归结果分析 r语言单因素logistic分析_r语言单因素回归结果分析_10

r语言单因素回归结果分析 r语言单因素logistic分析_r语言_11

4、潜类别分析

基于poLCA包进行潜在类别分析,基于文章检查了 2 到 6 个类别,并根据模型拟合统计量的评估选择了最佳拟合解决方案为5分类,详细参数介绍可以看看别的推文哦

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言_12

r语言单因素回归结果分析 r语言单因素logistic分析_r语言_13

R语言poLCA包绘制的图与原文的折线图不太一样,原文折线图是基于Mplus绘制的,但表达的是一样的内容

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言_14

潜在类别分析建模后将分类整合到原始数据中

r语言单因素回归结果分析 r语言单因素logistic分析_r语言_15

5、缺失数据填补

原文在变量介绍中最后讲解了对于变量缺失值如何处理,但没有给出具体的填补参数,小编以之前介绍的mice包填补缺失值,不了解的可以看看之前的推文

r语言单因素回归结果分析 r语言单因素logistic分析_r语言单因素回归结果分析_16

r语言单因素回归结果分析 r语言单因素logistic分析_开发语言_17

6、影响因素分析

结局指标为无序多分类变量(多病聚类),基于nnet包的multinom函数使用多项式logistic回归分析。结果的部分截图如下,果展示了从编码为2 的分类的logistic回归结果,这是由于模型默认以最小的编码(此处为1)为对对照。

r语言单因素回归结果分析 r语言单因素logistic分析_多系统_18

r语言单因素回归结果分析 r语言单因素logistic分析_r语言_19


后记

本文举例说明了潜在类别分析在横断面研究中的应用,当然也适用于纵向研究中。