大家好,我是邓飞,最近在学习孟德尔随机化,按照学习一个科目先学习基础概念的经验,先学习一下。

统计术语、遗传学术语我大体清楚,但还是被孟德尔随机化的术语深深震撼,每个字都认识,但是合在一起是什么意思还真有点看不出来。猛地一看,看不懂,但是字认识,仔细一看,还不如猛地一看。

经过一段时间的学习,我觉得这几个概念能够搞懂,就差不多入门了。

  • 暴露因素
  • 结局变量
  • 混杂因素
  • 工具变量

一、基础概念

1,什么是孟德尔随机化?

先看定义,保证你每个字都能看懂,但是句子看起来有点晕。。。

孟德尔随机化,遵循“亲代等位基因随机分配给子代”的孟德尔遗传定律,选择合适的“基因变异”作为工具变量,指代无法测量的待研究暴露因素,通过测量遗传变异与暴露因素、遗传变异与疾病结局之间的关联,进而推断暴露因素与疾病结局之间的关联。

孟德尔随机化的术语理解_人工智能

上面是孟德尔随机化的有向无环图。里面包含了4个概念,下面意义介绍,介绍完之后,就能入门了。

2,工具变量

工具变量(Instrumental Variable)是指那些与特定暴露因素(如生活方式或生物标志物)相关的遗传变异(通常是单核苷酸多态性,SNP),这些工具变量用于评估暴露因素与健康结果(如疾病发生或死亡率)之间的因果关系。一般孟德尔随机化中,将遗传变异作为工具变量。

说人话:孟德尔随机化,使用GWAS的summary 结果,找到显著性SNP,这些SNP就是工具变量。

3,暴露因素

在临床医学中,“暴露因素”(Exposure Factors)是指任何可能影响健康、疾病发生或病理状态的因素。这些因素可以是生物的、化学的、物理的、社会经济的或生活方式相关的。暴露因素可以与个体的健康状况相关,影响疾病的风险和发展。

说人话:就是建模中的x变量。

4,混杂因素

在医学研究中,混杂因素(Confounding Factors)是指那些可能影响研究结果的变量,这些变量与主要关注的暴露因素和结果变量均有关系,并可能导致对因果关系的误解或偏倚。混杂因素的存在可能使得研究者无法准确判断暴露(如某种治疗、生活方式或环境因素)与结果(如疾病发生、死亡率)的真实关系。

说人话:就是统计模型中的协变量,需要排除的因素。

5,结局变量

在孟德尔随机化(Mendelian Randomization, MR)研究中,“结局”(Outcome)通常指的是研究中关注的健康结果或疾病状态。结局可以是各种不同的指标,通常与暴露因素(如生活方式、环境因素或生物标志物)之间的因果关系进行评估。

说人话:就是统计模型中的y变量。

二、分析流程:体重和冠心病的孟德尔随机化分析案例

假定我们想了解体重(BMI)对心脏病的影响。但是对心脏病影响的因素很多,比如高血压、高血糖等,我们如何才能排除混杂,确定体重(BMI)对心脏病的影响呢?

我们先选择一个变量工具M,这个M需要和我们研究的X(BMI)有关系,而和混杂因素(高血压、高血糖)无关系。最后,我们通过MR分析得出M基因对Y有影响,因为M基因对Y没有直接关联,所以M基因通过影响暴露因素X(体重)从而对Y(心脏病)产生影响。如下图:

孟德尔随机化的术语理解_人工智能_02

上面分析时,包括三个假设:

1,基因M要和体重(暴露因素)强相关,比如GWAS的显著P值。(关联性假设)

2,基因M和结局变量(心脏病)以及其它混杂因素(高血压、高血糖)没有关联。(独立性假设)

3,基因M只能通过影响体重对心脏病的影响,不能通过其他途径对心脏病的影响。(排他性假设)

说人话:这个流程很简单,模块也很简单,下面一章节,从实际数据演示如何进行孟德尔随机化的分析,重点介绍分析结果。