欢迎关注”生信修炼手册”!

GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是​​\t​​分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。

GTF全称Gene transfer format, 每列的含义如下

1. column1

第一列是​​seqid​​, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是​​source​​​, 代表基因结构的来源,可以是数据库的名称,比如来自​​RefSeq​​​数据库,也可以是软件的名称,比如用​​GeneScan​​​软件预测得到,当然,也可以为空,用​​.​​点号填充。

3. column3

第三列是​​feature​​, 代表区间对应的特征类型, 在GTF中,常见的类型如下

  • 5UTR
  • 3UTR
  • exon
  • CDS
  • start_codon
  • stop_codon

4. column4

第四列是​​start​​, 代表区间的起始位置

5. column5

第四列是​​end​​, 代表区间的终止位置

6. column6

第六列是​​score​​​, 软件提供了统计值,如果没有,就用​​.​​填充

7. column7

第七列是​​strand​​​, 代表正负链的信息, ​​+​​​表示正链,​​-​​​表示负链,​​?​​​表示不清楚正负链的信息,当正负链信息没有意义时,可以用​​.​​填充

8. column8

第八列是​​phase​​,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种

9. column9

第九列是​​attributes​​​, 表示属性,每种属性写法为​​key value​​​, 注意和gff中​​key=value​​​有所区别,而且必须有​​gene_id​​​和​​transcript_id​​这两个属性, 多个属性用分号分隔

下面看下Ensembl 数据库中的human的GTF文件,链接如下

ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz

在头部有​​#​​开头的注释行

#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01

在正文中,基因示例如下

1       ensembl_havana  gene    65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";

对于基因,提供了如下属性

  1. gene_id
  2. gene_version
  3. gene_name
  4. gene_source
  5. gene_biotype

Ensembl数据库中的基因ID以​​ENSG​​​作为前缀,gene_version指的是基因ID的版本号,用于区分不同版本,一个完整的ID为ENSG编号加上版本号,之间用​​.​​​点号分隔,比如​​ENSG00000186092.6​​​。gene_name指的是基因的symbol, 和NCBI数据库中的gene_symbol一致;gene_source代表来源,来自ensembl_havana, gene_biotype代表基因类型,​​protein_coding​​表示蛋白编码基因。

转录本示例如下

1       havana  transcript      65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

对于转录本,在基因的基础上,增加了如下属性

  1. transcript_id
  2. transcript_version
  3. transcript_name
  4. transcript_source
  5. transcript_biotype

各个属性的含义也比较直观,和基因的类似。

exon示例如下

1       havana  exon    65419   65433   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "1"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; exon_id "ENSE00003812156"; exon_version "1"; tag "basic";

对于exon,新增了如下属性
  1. exon_number
  2. exon_id
  3. exon_version

对于non-coding的转录本而言,​​transcript​​​和​​exon​​两种信息就可以准确描述该转录本的结构了;对于编码蛋白质的转录本,还需要以下几种信息

5UTR示例如下

1       havana  five_prime_utr  65520   65564   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

CDS示例如下

1       havana  CDS     65565   65573   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; protein_id "ENSP00000493376"; protein_version "2"; tag "basic";

start_codon示例如下

1       havana  start_codon     65565   65567   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

stop_codon示例如下

1       havana  stop_codon      70006   70008   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "3"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

3UTR示例如下

1       havana  three_prime_utr 70009   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

通过这几种信息,可以准确描述一个编码蛋白的转录本的结构。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

GTF文件格式简介_数据库