这是一个读者给我写信询问的问题:

初入坑GWAS,学习plink还是TASSEL?_数据清洗
初学GWAS,应该知道,GWAS是干什么用的?我的理解,GWAS分为四部分:

1. 数据清洗

1.1 表型数据清洗

  • 删除异常值
  • 查看数据分布
  • 数据可视化

1.2 基因型数据清洗

  • MAF
  • Call rate
  • HWE

2 关联分析

2.1 一般线性模型GLM

2.2 混合线性模型

3 结果可视化

3.1 PCA群体结构

3.2 QQ图

3.3 曼哈顿图

3.4 LD衰减图

4. 结果注释

4.1 显著SNP注释

  • ANNOVAR
  • snpEFF

4.2 基因聚类分析

  • GO 富集分析
  • Kegg 通路分析

上面是我之前做的汇总。

整体而言,
plink可以手动进行:

  • 基因型数据质控
    • MAF
    • geno
    • HWE
  • 建模
    • GLM模型(连续性状)
    • logistic模型(二分类性状)

TASSEL

  • 窗口化界面
    • 不用编程,鼠标点点点
    • 需要提前将表型数据和基因型数据整理好
  • 模型
    • GLM模型
    • LMM模型
  • 可视化
    • QQ图
    • 曼哈顿图
    • LD衰减图

可以看到,TASSEL比较有优势,特别是它具有LMM模型,LMM模型是连续性状主流的分析方法。

其它GWAS分析软件
  • R包:GAPIT
  • R包:FamCPU
  • R包:rMVP
  • GEMMA

很多都是相通的,学习一种方法,其它软件也能很快入手。比如我先是用GEMMA,然后GAPIT和TASSEL也能很快上手。

后面,我将之前的文档,重新整理一下,按照这个流程,重新整理一份GWAS cookbook,岂不善哉!