这是一个读者给我写信询问的问题:
初学GWAS,应该知道,GWAS是干什么用的?我的理解,GWAS分为四部分:
1. 数据清洗
1.1 表型数据清洗
- 删除异常值
- 查看数据分布
- 数据可视化
1.2 基因型数据清洗
- MAF
- Call rate
- HWE
2 关联分析
2.1 一般线性模型GLM
2.2 混合线性模型
3 结果可视化
3.1 PCA群体结构
3.2 QQ图
3.3 曼哈顿图
3.4 LD衰减图
4. 结果注释
4.1 显著SNP注释
- ANNOVAR
- snpEFF
4.2 基因聚类分析
- GO 富集分析
- Kegg 通路分析
上面是我之前做的汇总。
整体而言,
plink可以手动进行:
- 基因型数据质控
- MAF
- geno
- HWE
- 建模
- GLM模型(连续性状)
- logistic模型(二分类性状)
TASSEL
- 窗口化界面
- 不用编程,鼠标点点点
- 需要提前将表型数据和基因型数据整理好
- 模型
- GLM模型
- LMM模型
- 可视化
- QQ图
- 曼哈顿图
- LD衰减图
可以看到,TASSEL比较有优势,特别是它具有LMM模型,LMM模型是连续性状主流的分析方法。
其它GWAS分析软件- R包:GAPIT
- R包:FamCPU
- R包:rMVP
- GEMMA
很多都是相通的,学习一种方法,其它软件也能很快入手。比如我先是用GEMMA,然后GAPIT和TASSEL也能很快上手。
后面,我将之前的文档,重新整理一下,按照这个流程,重新整理一份GWAS cookbook,岂不善哉!