biopython根据物种名下载fasta序列基因组基因序列fasta文件

转载

mob64ca13ffd0f1 2023-12-27 21:42:48

文章标签 数据库数据字段 文章分类 Python 后端开发

fastq与fasta文件格式解析

一、fasta格式
二、fastq格式

2.1 格式说明
2.2 碱基质量计算
2.3 Quality Score简化

三、二代测序的fastq文件格式介绍
四、补充说明

4.1 illumina测序仪
4.2 illumina测序方法
4.3 测序流程

参考文章

一、fasta格式

fasta格式是一种非常简单的储存序列的格式（主要是把序列存储到数据库中的一种形式），可以储存核酸序列（RNA/DNA)和氨基酸序列(AA)，主要包括2个部分：

以>开始的一行主要储存“序列的描述信息”；
第二行为序列信息

举例1： 人类血红蛋白 $biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据库$ 亚基的氨基酸序列：

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

举例2： 人类血红蛋白 $biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据库$ 亚基对应的mRNA序列：

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG

这条序列来自于NCBI的RefSeq数据库，所有来自于NCBI的序列都有一个gi号，是具有唯一性的数据库流水号，gb|AF349571.1是genebank编号的信息，后面是序列信息的详细描述（Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds）
RefSeq(reference sequence database) 基因参考序列数据库：是美国国家医学图书馆下属国家生物技术信息中心开发的基因参考序列数据库，为多种生物提供序列的数据信息及相关资料，用于医学、基因功能和基因功能比较研究。

二、fastq格式

2.1 格式说明

fastq是测序数据下机格式，其中包含测序序列(reads)的序列信息，及其对应的测序质量信息。fastq格式文件中每个read由四行描述，如下：

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG 
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT 
+ 
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

第一行以“@”开头，后面是这个read的基本信息，分为两部分：ID部分和可选的描述部分，中间用空格分开。ID部分是每条read的唯一标识，它包含多个字段，每个字段之间用冒号分隔；描述区域是可选的，用来保存一些自定义的信息，如测序时用到的引物序列信息、raad长度信息等。
第二行是碱基序列（分ATCTN5种情况，N代表不确定碱基类型）；
第三行以“+”开头，随后为illumina测序标识符（选择性部分，在旧版的fastq文件中会直接重复第一行的信息，新版的fastq文件为节省存储空间只保留"+"）；
第四行为对应碱基序列的测序质量（以ASCII码形式储存，与第二行的碱基序列一一对应），这一信息具有重要的作用，在基因测序后续的分析阶段中会用到这个质量值，例如数据质控、数据过滤、序列拼接、短序列比对、变异检测等步骤。

biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_03

2.2 碱基质量计算

如何理解第四行的碱基质量信息？
测序仪在碱基读取过程中，荧光信号转化为碱基类型时，会不可避免得存在一定程度误判，因此每一个base calling都会伴随一个测序错误率P产生，用来判断该base的可信程度。为了fastq文件中，碱基质量值能和第二行的碱基序列信息一一对应，P必须以一个字符的形式储存。所以有以下3步转换：
1）P转换为Q
$biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_04$ (P以10为底取对数，再乘以-10）；
当 $biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_05$ 时， $biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_06$ （代表该碱基测序错误的机率为千分之一）
2）Q转换为Phred值
$biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据库_07$ （C同测序仪和版本有关）
例如：

illumination（1.3+) C=64;
illumination（1.5+) C=64;
illumination （1.8+）C=33

3）最后获得Phred值对应的ASCII字符
ASCII码对照表链接：
就是我们看到的第四行 FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,（C=33时，?对应Q=30）

2.3 Quality Score简化

需要注意的是，NovaSeq将碱基质量分数做了进一步的简化（因为测序通量高，需要节约内存和存储资源），将碱基质量分数划分为几个区间（不同版本的仪器划分的区间不同，这里以3个为例）：

没有对应碱基：2
低质量read：12（Q<15)
中质量read：23（16<Q<29)
高质量read：37（Q>30)
以上4种不同的质量情况对应ASCII码：# , ; F

三、二代测序的fastq文件格式介绍

@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

第一行以@开头，后面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illmina设备名称，6代表flowcell中的第六个lane，73代表第六个lane中的第73个tile，941:1973代表该read在该tile中的x：y坐标信息；#0，若为多样本的混合作为输入样本，则该标志代表样本的编号，用来区分多个样本中的reads；/1代表paired end中的前一个read；
第二行为read的序列；
第三行以“+”开头，跟随着该read的名称（一般于@后面的内容相同），但有时可以省略，但“+”一定不能省。
第四行代表reads的质量。详细地说，Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的，例如红黄蓝绿分别对应ATCG，那么一旦出现一个紫色的信号该怎么判断呢，因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量，既 $biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_08$

四、补充说明

4.1 illumina测序仪

illumina测序仪一个flowcell中包含8个lane，每个lane可以测一个样本或多样本的混合物，其中一个lane包含2列，每一列又包含60个tile，每一个tile又会种下不同的cluster，如下图所示：

biopython根据物种名下载fasta序列基因组基因序列fasta文件_数据_09

4.2 illumina测序方法

一般地，碱基质量从0-40，既ASCii码为从 “！”（0+33）到“I”(40+33）。以上是sanger中心采用记录read测序质量的方法，Illumina起初没有完全依照sanger中心的方法来定义测序质量，而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的，可以看出当测序质量很高的情况下两种形式几乎没区别，但低质量的碱基则有区别了。
因此，Illumina有更换了好几种版本，从1.3版本升级到1.5版本再到1.8，最后完全采用sanger中的规则来做。因此，现在Illumina给出的测序质量值完全可以参考刚说的sanger方法。

4.3 测序流程

1）library：样本DNA经过PCR扩增
2）lane：测序时的一条泳道，一个泳道可以只接受一个library的，也可以是多个library的，不同的library在两段是用不同的头序列连起来作为标识的。当接受多个library的时候也是一起出的结果，当我们需要的测序深度不是特别深的时候就可以采用这种办法，根据不同的接头序列将这些数据分开成为一个个单独样本的fastq数据，这也是经常为什么在跑fastqc（质控）可以看到那些非正常的过表达序列。当然，一个library的DNA也可以用多个泳道测，这在需要很高的测序深度的时候才采用该策略。可以考虑在后续的比对生成的bam文件那里把他们合并起来成为一个bam文件。