转录组背景知识
1、测序平台有哪些
Roche 454
illumina
ABI
2、有参无参
有参是指我们研究的这个物种已经有比较完善的参考基因组了,这个时候只需要把RNA-cl数据比对到基因组,然后进行后续的组装、定量分析就好。
但有些研究较少的物种或新物种是不存在参考基因组的,这时候就需要用到无参的、从头组装的方法。
有参和无参使用的软件有较大的区别。(比如小鼠就有完善的参考基因组和注释信息)
有参使用:Cuffink 、StringTie
无参使用:Trinity 、 sOAPdenovo
虽然转录组的无参比有参数据量要多一些,但后续的分析难度的话,转录组的无参与基因组的无参相比,难度小很多
3、测序深度
数据量需要根据研究目的来确定,根据需求不同reads的大小需求也不尽相同
假如只是看基因组的表达差异情况,10M就可以
假如是无参的情况下,需要20-30M
如果想更精细的研究,看一下转录本的差异,30M以上
要是更更精确地话,就要400-500M
这里需要考虑一下‘边际效应’问题,比如测10M的数据测出了80%的数据量,测500M数据测出了100%的数据量,如果你只是想看一下基因组表达差异的话,那10M就可以了
4、生物学重复
建议有生物学重复
一般都是三次或以上重复,R*R大于0.9,样品的平行性很重要
5、SE/PE
SE : Single End:一条cDNA的片段
PE : Paired End: 两条cDNA的片段
6、Library type(建库类型)
常见的有两种:链特异性:fr-firststrand
非链特异性:fr-unstranded
二、使用的软件
网站
1、数据质控:Trimmomatic(处理raw data,得到可用的数据)
FastQC(快速查看二代测序质量到底怎么样)(上方的这两个软件基本是二代测序通用的)
RSeQC(QC,针对比对之后的数据)
Trim-Galorel()
2、对比组装:Bowtie2 TopHat2 Cufflinks StringTie
3、差异表达:DESeq2 edgeR Htseq SAMtools
4、功能注释:DAVID KEGG AgriGO KOBAS TBtools