大家好,我是邓飞。

最近在学习孟德尔随机化的分析,因为GWAS教程基本分析完成了,如何利用GWAS的summary结果,大体有三种途径:

* 克隆基因,研究基因功能,转基因、基因编辑等

* 利用标记进行预测,比如分子标记辅助选择(MAS),多基因评分(PRS,PGS)

* 研究性状间的关系,比如LDSC(ldsc 计算遗传力+遗传相关程序安装教程)可以计算性状间的遗传相关和遗传力,孟德尔随机化(MR)可以研究性状间的因果关系

对于孟德尔随机化分析,早就看他不顺眼了,想学习一下,但是总是计划,没有开始,前几天实在对自己的拖延症忍无可忍,就结合文献+博客+ChatGPT开始学习,写了两章,分别是基础概念和基本假定:

孟德尔随机化的术语理解

孟德尔随机化:工具变量三大假设

今天看了几篇文章,了解了一下MR文章分析的基本套路,今天对结果形式进行一下介绍。

结果1:报表

从一篇孟德尔随机化文章看MR常见结果形式_稳健性

上图是MR分析的结果,其中:

- OR值:Odds Ratio,比值比,如果OR=1,说明暴露和结果没有关联;OR>1,说明暴露和结果存在正相关,OR值越大,关联越强;OR<1,说明暴露和结果负相关。

- 95%CI,95%的置信区间,是指OR的置信区间

- P值,是发生的概率是否达到显著性水平,越小越显著

- Cochran's Q(P),前面是与卡方比较的Q值,括号内事P值,P指小于0.05,说明存在显著异质性。上图中,IVW方法的OR值为1.57,CI区间是1.4~1.76,p值是2.01E-14,说明RC每增加一个标准差,CHD风险将增加57%。

结果2:MR森林图解读

从一篇孟德尔随机化文章看MR常见结果形式_稳健性_02

定义:在孟德尔随机化(Mendelian Randomization, MR)研究中,森林图(Forest Plot)是一种常用的可视化工具,用于展示各个研究或分析结果的效应估计及其不确定性。森林图能够直观地帮助研究人员和读者理解不同工具变量(如SNP)对暴露与结果之间关系的影响。

1. 效应估计和方向,检查每个工具变量或研究的效应估计(点标记位置),看其是否在无效应线的左侧或右侧:

- 在无效应线右侧的效应值表示暴露可能提高结果发生的风险(正向关联)。

- 在无效应线左侧的效应值表示暴露可能降低结果发生的风险(负向关联)。

2. 置信区间的显著性,查看每个效应估计的置信区间:

- 如果置信区间完全在无效应线的一侧(例如对于OR,如果置信区间的下限均大于1),可以认为该结果在统计上显著。

- 如果置信区间跨越无效应线,则该结果在统计上不显著。

3. 整体效应的解读:森林图底部的综合效应估计及置信区间提供了总体的因果关系估计:

- 如果整体效应的置信区间不包括无效应,这意味着总体结果是显著的。

4. 评估异质性,森林图可帮助评估不同研究或工具变量之间结果的一致性。如果某些结果显著不同,可能需要进行异质性分析。

上面结果中,左边上方是每个SNP的名称,每个SNP一行,x坐标是效应值的区间,每一行SNP的黑点是效应值的大小,线段的长度是95%的置信区间,如果线段在0虚线的两端说明不显著,如果全部在左边或者全部在右边,说明达到显著水平。红色的是整体结果和置信区间,可以看到两种方法都达到显著水平,并且是正向关联。

结果3:MR散点图解读

定义:在孟德尔随机化(Mendelian Randomization, MR)研究中,两样本MR结果散点图是一种重要的可视化工具,用于展示遗传工具变量(如SNP)与暴露和结果之间的关系。该图通常有助于直观地分析和理解因果推断过程。

散点图的组成

1. 坐标轴:

- X轴:通常表示工具变量对暴露的效应(例如,SNP与某种生物标记或生活方式的关联)。

- Y轴:通常表示相同工具变量对结果的效应(例如,SNP与特定疾病或结果的关联)。

2. 数据点:

- 每个点代表一个遗传工具变量(如某个SNP)的效应估计。

- 点的坐标由该SNP对暴露和结果的效应值决定。

3. 置信区间:

- 在散点图中,数据点可以附带其效应估计的置信区间,这通常以误差线的形式展示,指示效应估计的不确定性。

4. 参考线:

- 往往会绘制一条45度参考线(对角线),表示暴露与结果之间的完全一致性。如果数据点沿此线分布,则表明暴露对结果有一致的影响。

解读散点图

1. 整体趋势

- 位置:观察数据点相对于参考线的位置:

- 如果大部分数据点位于参考线的上方,这通常表示暴露与结果之间可能存在正向关联。

- 如果大部分数据点位于参考线的下方,则可能表示负向关联。

2. 效应估计的偏差

- 确认数据点与参考线的一致性:

- 如果散点在参考线附近,说明效应估计的方向和大小一致。

- 如果有些点远离参考线,可能表示异常值或对结果的影响较大。

3. 置信区间

- 误差线的长度:检视效应估计的置信区间:

- 较长的误差线表示效应估计的不确定性较大。

- 确保效应估计是否有足够的统计支持,尤其是在重要的研究结论上。

4. 异质性和偏倚

- 检查数据点的分布是否存在模式:

- 如果数据点分布较为一致,可能表明MR分析的稳健性和一致性。

- 如果有显示出异质性(如有明显的群集或分散),可能需要进一步调查导致这种现象的原因。

从一篇孟德尔随机化文章看MR常见结果形式_可视化工具_03

上面结果中,整体是在上面,说明是正相关。x坐标是暴露gwas的effect,y坐标是结局gwas的effect,加上置信区间。

参考文献

杜冬杰,陈健,王诗悦,查理,尚容仿,孙冬雪,钟鸣,金恩泽.血残粒胆固醇水平与冠心病和心肌梗死风险的两样本孟德尔随机化研究[J].中国动脉硬化杂志,2023,31(6):510~516.

今天这篇写完之后,感觉已经入门了,下面就是代码实操和模型学习,千里之行,始于足下。