昨天,我介绍了TASSEL的安装和读取plink基因型数据,使用TASSEL学习GWAS笔记(1/6):读取plink基因型数据和表型数据

这里,我们查看一下基因型数据导入后,如何对数据进行质控。

1. 导入后的基因型文件

导入后的基因型数据:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql

2. 对基因系数据进行质控

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_02

这里TASSEL提供了SNP位点质控和样本质控。

2.1 SNP位点质控

这里,选择次等位基因频率为0.05,MAF小于这个的位点删除,质控后的基因型数据保存为*Filter为后缀。
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_03

2.2 样本杂合度质控

这里,我们没有对样本杂合度质控,如果需要的话,可以设置杂合度的区间。

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_04

3. 基因型数据导出

很多时候,纠结plink数据如何转化为hapmap格式,或者hapmap格式如何转化为plink格式,现在有方法了,在TASSEL过一遍,选择导出格式就行了。

编写啥代码,鼠标点点点不香嘛!!!

选择基因型数据,点击File --> Save As
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_05

可以看到支持很多格式:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_06

3.1 导出plink格式

选择导出的格式为plink格式:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_数据_07
查看一下文件,re1-plink.plk.map, re1-plink.plk.ped
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_08

用git看一下导出的数据情况:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_09

3.2 导出vcf格式

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_10
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_11
查看vcf结果:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_12

3.3 导出Hapmap格式

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_数据_13
查看导出的文件:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_14

预览一下hapmap格式:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_数据_15

3.4 导出Hapmap Diploid格式

设置:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_16

文件预览:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_数据_17

结果是二进制文件,不能预览。

3.5 导出HDF5格式

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_18
文件预览:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_19

结果是二进制文件,不能预览。

4. 基因型导入plink中质控

这里,我们直接用导出的re1的plink文件,进行质控,质控后再返回TASSEL中。

 plink --file re1-plink.plk --maf 0.01 --geno 0.1 --mind 0.1 --hwe 1e-4 --recode --out qc_plink

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_20
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_二进制文件_21

质控情况:

  • 22个样本,由于缺失,删掉了
  • 99个SNP,由于缺失,删掉了
  • 0个SNP,由于哈温平衡,删除了
  • 0个SNP,由于maf,删除了

质控后的结果保存为qc_plink.ped, qc_plink.map.

5. 质控后的plink文件,导入到TASSEL中

点击下面菜单:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_22
下拉菜单中,选择plink格式:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_mysql_23
选择对应的map和ped数据:
使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_数据_24
读取成功:

使用TASSEL学习GWAS笔记(2/6):对基因型数据进行质控及导出基因型_文件预览_25

下一篇,介绍基因型数据可视化:kingship,LD,MDS的方法,欢迎关注:

欢迎关注我的公众号:育种数据分析之放飞自我。主要分享R语言,Python,育种数据分析,生物统计,数量遗传学,混合线性模型,GWAS和GS相关的知识。