转录组背景知识

1、测序平台有哪些

Roche 454

illumina

ABI

 

2、有参无参

有参是指我们研究的这个物种已经有比较完善的参考基因组了,这个时候只需要把RNA-cl数据比对到基因组,然后进行后续的组装、定量分析就好。

但有些研究较少的物种或新物种是不存在参考基因组的,这时候就需要用到无参的、从头组装的方法。

有参和无参使用的软件有较大的区别。(比如小鼠就有完善的参考基因组和注释信息)

有参使用:Cuffink  、StringTie

无参使用:Trinity 、 sOAPdenovo

虽然转录组的无参比有参数据量要多一些,但后续的分析难度的话,转录组的无参与基因组的无参相比,难度小很多

 

3、测序深度

数据量需要根据研究目的来确定,根据需求不同reads的大小需求也不尽相同

假如只是看基因组的表达差异情况,10M就可以

假如是无参的情况下,需要20-30M

如果想更精细的研究,看一下转录本的差异,30M以上

要是更更精确地话,就要400-500M

这里需要考虑一下‘边际效应’问题,比如测10M的数据测出了80%的数据量,测500M数据测出了100%的数据量,如果你只是想看一下基因组表达差异的话,那10M就可以了

 

4、生物学重复

建议有生物学重复

一般都是三次或以上重复,R*R大于0.9,样品的平行性很重要

 

5、SE/PE

SE : Single End:一条cDNA的片段

PE : Paired  End: 两条cDNA的片段

 

6、Library type(建库类型)

常见的有两种:链特异性:fr-firststrand

       非链特异性:fr-unstranded

 

二、使用的软件

网站

1、数据质控:Trimmomatic(处理raw data,得到可用的数据)    

       FastQC(快速查看二代测序质量到底怎么样)(上方的这两个软件基本是二代测序通用的)

       RSeQC(QC,针对比对之后的数据)    

       Trim-Galorel()

2、对比组装:Bowtie2  TopHat2  Cufflinks  StringTie  

3、差异表达:DESeq2  edgeR  Htseq  SAMtools

4、功能注释:DAVID  KEGG  AgriGO  KOBAS  TBtools