写在前面,听完生信技能树的生信课之后受益匪浅,因此做一些整理和自己的理解,再次感谢生信技能树

一、概述

       转录组是RNA转录本的集合,包括了在单个细胞或者大量细胞内的编码和非编码RNA。RNA在中心法则中是基因表达的起始,在一定程度上可以指示基因的表达或者某些LncRNA microRNA调控RNA的表达。因此我们通过了解单个细胞或者整体的RNA水平,可以得到不同处理因素之下对基因表达的影响,并通过下游分析,得出影响的核心基因、生物过程等。

python转录组测序 转录组测序分析流程_python转录组测序

二、普通转录组的基本流程

python转录组测序 转录组测序分析流程_数据挖掘_02

python转录组测序 转录组测序分析流程_数据分析_03

       构建文库,连接好带接头的cDNA,接头自身并不配对,用途是与flowcell上的接头结合,起着固定的作用。barcode也就是index,起到识别的作用,这样可以多个样本一同上机测序。

基于可逆终止的、荧光标记dNTP,边合成边测序。        

python转录组测序 转录组测序分析流程_数据分析_04

三、得到fastq文件

上机完成的结果以fastq文件形式保存,双端测序一般一个样本对应两个fq文件,gz是压缩的后缀,如

 

python转录组测序 转录组测序分析流程_数据挖掘_05

       高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads, 结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的 测序质量信息。测序样品中真实数据随机截取结果如下图

python转录组测序 转录组测序分析流程_python转录组测序_06

四、设置清晰的工作路径

## 示例如下:
├── database # 数据库存放目录,包括参考基因组,注释文件,公共数据库等
├── project  # 项目分析目录
    └── Human-16-Asthma-Trans #具体项目
        ├── data # 数据存放目录
        │   ├── cleandata # 过滤后的数据
           	│	├── trim_galore # trim_galore过滤
		   	│	└── fastp	    # fastp过滤
        │   └── rawdata # 原始数据
        ├──  Mapping # 比对目录
        │   ├── Hisat2 # Hisat比对
        │   └── Subjunc # subjunc比对
        └── Expression # 定量
            ├── featureCounts # featureCounts
            └── Salmon # salmon定量
# 进入到个人目录
cd ~

## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
mkdir -p database/GRCh38.105

## 2.建立项目分析目录
mkdir project
cd project
mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans

# 建立数据存放目录
mkdir -p  data/rawdata  data/cleandata/trim_galore  data/cleandata/fastp
# 建立比对目录
mkdir -p Mapping/Hisat2  Mapping/Subjunc
# 建立定量目录
mkdir -p Expression/featureCounts  Expression/Salmon
# 查看整个分析目录准备结构
tree
├── data
│   ├── cleandata
│   	├── trim_galore
│   	└── fastp		
│   └── rawdata
├── Expression
│   ├── featureCounts
│   └── Salmon
└── Mapping
    ├── Hisat2
    └── Subjunc