有小伙伴在群里面问,GWAS分析要不要进行LD质控,我觉得问题很好,这里介绍一下。

1. 什么是连锁不平衡(LD)

介绍之前连锁不平衡(LD)之前,先介绍连锁平衡(LE)。连锁平衡 (Linkage Equilibrium, LE),在基因组上,如果两个不同基因座上的等位基因是随机组合在一起的,那么它们就处于连锁平衡状态。这意味着,知道一个基因座上的等位基因类型,并不能预测另一个基因座上的等位基因类型。

飞哥注:这个和孟德尔第二遗传定律,即自由组合定律很像,不同基因在减数分裂时随非同源染色体自由组合,独立传递给后代,任意两个基因的等位基因组合频率等于各自等位基因频率的乘积,这就是处于连锁平衡状态。

LD 指基因组中不同位点的等位基因非随机共现的现象(即某些位点的基因型总是 “捆绑出现”)。连锁不平衡是指不同基因位点上的等位基因之间存在非随机关联—— 即某两个等位基因同时出现的频率,显著高于或低于它们随机组合的预期频率。

飞哥注:这个和摩尔根第三遗传定律,即基因连锁与互换定律很像,基因在染色体上呈线性排列,物理距离越近的基因,连锁程度越高(重组率越低);距离越远,越容易因交叉互换而重组(重组率越高)。

所以,摩尔根的遗传定律是解释连锁不平衡产生和维持的遗传学基础。那么连锁不平衡产生的因素有哪些呢?

2. 为什么会产生连锁不平衡(LD)

连锁不平衡的产生和维持受多重因素的影响,最重要的就是物理距离,两个基因座距离很近,那么在减数分裂时,他们之间的重组就很少,发生的概率很低,作为一个整体(单倍型)遗传给下一代的概率就很大,所以LD就很高。

其它因素也会导致群体高的LD,比如受选择的群体,比如育种群体,某些有利的突变会在群体中迅速扩散,导致群体内的这个区域的LD升高,这也是野生群体LD衰减很快,而驯化改良群体LD衰减很慢的原因。LD衰减图绘制--PopLDdecay

3 admixture分析要不要进行LD质控?

Admixtue说明文档中介绍:去掉LD高的SNP不会对结果有影响,因为计算不依赖于LD,会大大提升运行速度。

LD质控,是为了降低数据量,特别是admixture进行群体结构分析时,会大大降低运行的时间,当然,有多线程和大内存服务器的小伙伴,完全可以用所有的位点,毕竟成年人的世界,两者都要才是普遍的,都跑一下,看看结果是否有差异。个人经验,无论是LD质控不质控,只要剩下有一定的数据量,结果变化不大。

4. GWAS分析是否要进行LD质控?

GWAS分析中,依据就是至少有一个SNP与所控制的基因处于连锁不平衡状态(LD),那么,如果这个基因导致了表型变化,那么我们就可以通过它所连锁的SNP检测到显著性变化。如果这个基因附近的SNP都与基因存在LD,那么可以检测到聚集的SNP显著性为点,显著性位点成簇出现,类似下图:真实的显著位点应该是在基因两侧分布的,有一个上升和下降的趋势。

GWAS分析要不要进行LD质控?_技术支持

上图中,显著性位点,成簇出现的位点之间,肯定存在LD,如果通过LD过滤掉了,只剩下1个,就会呈现这种图:我们认为这可能是假阳性,因为周围没有位点佐证它。

GWAS分析要不要进行LD质控?_技术支持_02

所以,GWAS分析时,不要对LD进行质控,起码不要严格的质控。

如果想要更高效的学习GWAS,参加培训是性价比更高的选择,互动性强,项目式的练习,加上技术支持和视频回放,没有学不会的道理。这个GWAS培训,不是单纯‘讲流程’(避免 5% 的低效),而是带着你一步步实操(从环境配置到批量分析,每步跟着敲代码,对应 75% 的吸收);现场有实时答疑(你卡壳的地方,老师当场演示解决,相当于‘教你跨过坑’,对应 90% 的吸收);还有一年技术支持(学完后练手遇到问题,随时问,避免‘课上懂了,下课就忘’)

GWAS分析要不要进行LD质控?_学习方法_03