大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》的书籍。

已经介绍过的内容:

《Genome-Wide Association Studies》第一章:GWAS分析的主要步骤和关键要点

第二章:GWAS表型数据的准备和管理

今天介绍第三章:《基因分型平台》

这本书整体的目录如下:

第三章:GWAS基因分型平台介绍_ide

整个来说,这一章节没有什么代码或者模型的介绍,都是基因分型平台的介绍,常见的基因分型平台有:

* 基因芯片

* GBS

* TGBS

* 全基因组重测序

飞哥注:

芯片(固态芯片和液相芯片)和重测序最为常见,GWAS分析也多采用这两种检测方法的其中一种。


最近在用obsidian整理自己的笔记,发现读书的时候,如果有些知识之前有所了解,就把他连接一下,发现关联到一起之后,理解更清晰了,下面两个是阅读的时候两个关联笔记,红色的问题,蓝色的是我的理解。

GWAS分析与SNP标记数量的关系:

GWAS是群体的数据分析,SNP的数量取决于群体LD衰减的情况。LD越高,所需要的位点数越低,因为比较少的位点就可以保证覆盖度,确保性状控制的QTL至少有一个标记处于LD状态,代表性有了,结果就可靠。

具体到染色体水平,有些染色体衰退得快,就需要更多的标记。有些染色体保守,就需要较少的标记,一般是看整体的LD水平,大致评估一个最小的snp个数。

如果SNP数量很多,如何去掉SNP降低分析难度又不影响分析结果?

1,可以根据LD,去掉高连锁的位点,比如LD大于0.95的删除,如果位点很多,也可以删除很多位点,这些位点删除不影响分析的结果,会降低计算量。

2,如果还有很多位点,可以进一步删除,比如去掉LD大于0.5的位点,这时候找到的显著性位点,可以提取附近上下游的位点,计算单倍型,然后依据单倍型进行重新分析,也是一种降低工作量的方法。