scRNA数据分析流程 rna seq数据分析

转载

mob64ca13f40f3d 2024-07-05 06:34:27

文章标签 scRNA数据分析流程学习数据数据分析数据库 文章分类 数据分析人工智能

mRNA-seq数据分析

1. 使用fastQC及multiQC对原始测序结果进行质控

2. bowtie2去除测序数据中rRNA --约去除0.2%的rRNA数据

3. hisat2进行参考基因组比对 --全比对率高于94%证明测序数据质量较好

4. samtools转换文件格式

5. featureCount对基因表达数据进行定量

6. 基因表达数据转化为矩阵(merge函数)

7. 转换基因symbol进行DEG分析(基于EdgeR及R project)

基因功能富集分析结果（基于clusterProfile）

基因通路富集结果

差异基因蛋白互作关系

相关文件格式

1. fasta: 记录序列信息（有其他扩展名）

对于每条序列

首行：“>”, 加上注释

在首行（用于唯一描述序列之后），以单字母标准编码表达的实际序列数据

核酸编码：A、C、G、T、U、R、Y、K、M、S、W、B、D、H

氨基酸编码：A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、Y、Z、X、*（终止密码子）

2. GFF/GTF：记录注释信息

GFF：记录基因组上基因或其他特征的位置信息，目前常见的是version3

GTF：和GFF version2相同

（1）seqname: 序列名，记录chr1, 1, contig1, scaffold_1

（2）source: 数据来源，或文件由什么软件生成

（3）feature: 特征名，例如gene

（4）start: 起始位置，从1开始计数

（5）end: 终止位置

（6）score: 得分，对该类型存在性和其坐标的可信度

（7）strand: +正链或-负链相对参考基因组

（8）frame：0, 1, 2,较为复杂，密码子偏移

（9）attribute：更详细的描述

3. BED：基因组浏览器常用格式

常用于在基因组浏览器中展示注释信息，只有前三个信息必须

（1）seqname

（2）start，从0开始计数

（3）end

（4）name

（5）score

（6）strand

（7）thickStart

（8）thickEnd

（9）itemRgb

（10）blockCount

（11）blockSizes

（12）blockStarys

4. SRA: NCBI SRA 数据库存放格式

SRA是一个数据库，NCBI为了解决高通量数据庞大的存储能力，设计的一种数据压缩方案

一般使用fastq-dump和fasterq-dump来将其转换成Fastq格式数据，才能做后续数据分析

5. fastq：高通量数据存放格式

保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。序列与质量得分都由单个ASCII码表示

一个序列通常由四行组成：

（1）以@开头，之后为序列的标识符以及描述信息（与fasta格式的描述行类似）

（2）序列信息

（3）以+开头，之后可以在加上序列的标识及描述信息（可选）

（4）质量得分信息，与第二行的序列相对应，长度必须与第二行相同

6. SAM/BAM: 高通量数据比对存放格式

（1）qname: query序列的ID

（2）flag: 用于描述比对情况

（3）rname: 比对到的参考基因组的染色体编号（或者contig/scaffold）

（4）pos: 比对到的起始位置，以1开始

（5）mapq：对比质量，范围在0--255

（6）cigar: 记录联配情况

（7）rnext: 配对read对应的染色体编号

（8）pnext: 配对read对应的位置

（9）tlen: 能和基因组匹配的长度

（10）seq: 序列信息

（11） qual：序列对应质量信息

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 程序睡眠1秒 python睡眠排序

下一篇：Linux中删除一个消息队列函数 linux 删除ln

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯