欢迎关注"生信修炼手册"!

plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,​​ped​​​和​​map​​​。本篇重点介绍一下​​ped​​格式。

对于​​ped​​格式而言,包含了以下几种信息

  1. 家系结构;
  2. 性别信息;
  3. 表型信息;
  4. snp calling信息;

​ped​​​格式是一个纯文本的文件,至少需要6列,每列有空格或者​​\t​​​分隔。这6列
分别代表以下含义

  1. Family ID
  2. Individual ID
  3. Paternal ID
  4. Maternal ID
  5. Sex
  6. Phenotype

​Family ID​​​用来表示家族,同一个家族用同一个family ID表示;​​Individual ID​​​用来表示个体,​​family ID​​​和​​Individual ID​​​连起来必须能够唯一表示每个样本;​​Paternal ID​​​表示父本ID, ​​Maternal ID​​表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。

​Sex​​​表示性别, ​​1​​​代表male,​​2​​代表female, 其他数字表示unknown。

​phenotype​​代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

对于关联分析而言,除了表型相关信息,还需要基因型信息。在​​ped​​​格式的文件中,剩余的列通常用来表示基因型信息。在​​ped​​​文件中,每个snp位点的基因型需要两列来表示,分别表示major allel 和 minor allel。在表示基因型时,既可以使用A,C,G,T字母的形式,也可以采用1,2数字编码的形式。默认情况下,用​​0​​来表示基因型的缺失。

一个​​ped​​文件的示例如下

1 1 0 0 1  1  A A  G T
2 1 0 0 1 1 A C T G
3 1 0 0 1 1 C C G G
4 1 0 0 1 2 A C T T
5 1 0 0 1 2 C C G T
6 1 0 0 1 2 C C T T

在这个​​ped​​​文件中,所有样本之间相互独立,没有亲缘关系,所以每个样本有一个唯一的​​family ID​​​;对于样本而言,只需要​​family ID​​​和​​Individual ID​​​两个字段的信息连起来,能够唯一表示一个样本即可,由于​​family ID​​​已经和样本是一一对应关系了,所以这里的​​Individual ID​​统一用1表示。

由于没有亲缘关系,​​Paternal ID​​​和​​Maternal ID​​​也没有了意义,取值全都为0; 性别全部为1,表明所有样本都为男性;​​phenotype​​的取值有1和2两种,是离散型的。最后的4列信息代表2个SNP位点的基因型信息,每两列一个SNP位点。

扫描关注微信号,更多精彩内容等着你!

plink PED 文件格式介绍_关联分析