mRNA-seq数据分析
1. 使用fastQC及multiQC对原始测序结果进行质控
2. bowtie2去除测序数据中rRNA --约去除0.2%的rRNA数据
3. hisat2进行参考基因组比对 --全比对率高于94%证明测序数据质量较好
4. samtools转换文件格式
5. featureCount对基因表达数据进行定量
6. 基因表达数据转化为矩阵(merge函数)
7. 转换基因symbol进行DEG分析(基于EdgeR及R project)
基因功能富集分析结果(基于clusterProfile)
基因通路富集结果
差异基因蛋白互作关系
相关文件格式
1. fasta: 记录序列信息(有其他扩展名)
对于每条序列
首行:“>”, 加上注释
在首行(用于唯一描述序列之后),以单字母标准编码表达的实际序列数据
核酸编码:A、C、G、T、U、R、Y、K、M、S、W、B、D、H
氨基酸编码:A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、Y、Z、X、*(终止密码子)
2. GFF/GTF:记录注释信息
GFF:记录基因组上基因或其他特征的位置信息,目前常见的是version3
GTF:和GFF version2相同
(1)seqname: 序列名,记录chr1, 1, contig1, scaffold_1
(2)source: 数据来源,或文件由什么软件生成
(3)feature: 特征名,例如gene
(4)start: 起始位置,从1开始计数
(5)end: 终止位置
(6)score: 得分,对该类型存在性和其坐标的可信度
(7)strand: +正链或-负链相对参考基因组
(8)frame:0, 1, 2,较为复杂,密码子偏移
(9)attribute:更详细的描述
3. BED:基因组浏览器常用格式
常用于在基因组浏览器中展示注释信息,只有前三个信息必须
(1)seqname
(2)start,从0开始计数
(3)end
(4)name
(5)score
(6)strand
(7)thickStart
(8)thickEnd
(9)itemRgb
(10)blockCount
(11)blockSizes
(12)blockStarys
4. SRA: NCBI SRA 数据库存放格式
SRA是一个数据库,NCBI为了解决高通量数据庞大的存储能力,设计的一种数据压缩方案
一般使用fastq-dump和fasterq-dump来将其转换成Fastq格式数据,才能做后续数据分析
5. fastq:高通量数据存放格式
保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分都由单个ASCII码表示
一个序列通常由四行组成:
(1)以@开头,之后为序列的标识符以及描述信息(与fasta格式的描述行类似)
(2)序列信息
(3)以+开头,之后可以在加上序列的标识及描述信息(可选)
(4)质量得分信息,与第二行的序列相对应,长度必须与第二行相同
6. SAM/BAM: 高通量数据比对存放格式
(1)qname: query序列的ID
(2)flag: 用于描述比对情况
(3)rname: 比对到的参考基因组的染色体编号(或者contig/scaffold)
(4)pos: 比对到的起始位置,以1开始
(5)mapq:对比质量,范围在0--255
(6)cigar: 记录联配情况
(7)rnext: 配对read对应的染色体编号
(8)pnext: 配对read对应的位置
(9)tlen: 能和基因组匹配的长度
(10)seq: 序列信息
(11) qual:序列对应质量信息