Python转录组差异表达分析 转录组研究方法_学习


Python转录组差异表达分析 转录组研究方法_数据分析_02


Python转录组差异表达分析 转录组研究方法_锚定_03


转录组:一个细胞、组织或生物体的全部RNA的集合体,其他也包括非编码的RNA。转录物的复杂性主要来自mRNA转录组学:对转录水平上发生的事件及其相互关系和意义进行整体研究的一门科学。转录组学的研究方法:

1. RNA测序技术

2. 基因芯片技术

3. 基因表达系列分析技术

4. 转录物编目的研究方法

5. 转录物调节网络

RNA-seq 转录组测序即RNA测序指将mRNA,miRNA,及其他non-coding RNA全部或者其中一种用高通量测序技术进行测序分析的技术测序深度:测序得到的总碱基数与待测基因组大小的比值,假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10×覆盖度:测序获得的序列占整个基因组的比例。由于基因组中高GC含量,重复序列等复杂结构的存在,测序最终拼接组装的序列往往无法覆盖所有的区域,这些区域就叫做gap二者的关系:测序深度和基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。当测序深度在0~15×以上时,基因组覆盖度和测序错误率控制均得以保证。RNA-seq实验流程(看ppt)1,样品RNA准备——总RNA质量2,测序文库构建3,DNA成簇(cluster)扩增4,高通量测序5,数据分析RPKM:是每百万读段中来自于某基因每千碱基长度的读段数。RPKM=total exon reads/mapped reads(millions)*exon length(KB)其中,total exon reads指映射到某个基因上的reads数,mapped reads指map到所有基因的总reads数。RPKM不仅对测序深度作了归一化,而且对基因长度也作了归一化,使得不同长度的基因在不同测序深度下得到的基因表达水平估计值有了可比性,是目前最常用的基因表达估计方法。RNA-seq的基本应用:基因表达水平检测、基因结构分析(可进行融合基因、选择性剪接、SNP的研究)、非编码区功能研究(发现和分析ncRNA)基因芯片技术的基础——核酸杂交技术核酸分子杂交原理:具有一定同源性的两条(DNA或RNA)单链在适宜的温度及离子强度等条件下,可按碱基互补配对原则特异性地复性,形成双链。不同来源的DNA或者RNA单链在一定条件下重新组成的新的双链分子——杂交分子。southern印迹杂交(检测DNA):使在电泳凝胶中分离的DNA片段转移并结合在适当的滤膜上,然后通过同标记的单链DNA或RNA探针的杂交作用检测这些被转移的DNA片段。northern印迹杂交(检测RNA):指将RNA变性及电泳分离后,并转移到固相支持物上,用杂交反应来鉴定其中特定mRNA分子的含量及其大小。基因芯片(gene chip)又称DNA微阵列(DNA microarray):通过微加工技术,将数以万计、乃至百万计的特定序列的DNA片段(基因探针),有规律地排列固定于支持物上,构成的一个二维DNA探针微阵列。直接对某一物种或特定细胞在某一功能状态下产生的mRNA进行高通量分析,可以用来研究基因的表达差异情况。基因芯片原理探针:顺序已知的,与目的基因互补的DNA序列样品:提取待检测细胞或组织中的mRNA,反转录得到的cDNA目的:从整体水平研究待测样本中的基因表达情况
1. 将大量已知DNA探针整齐、高密度地固定在一块类似邮票大小的固体(如玻璃片、硅片或尼龙布等)支持物上
2. 用标记好的核酸样品进行杂交
3. 通过检测杂交后标记信号的强弱来判断样品中与探针对应的靶序列是否存在,数量。

基因芯片操作流程芯片制备、样品准备、杂交、扫描与数据分析。基因芯片的应用:RNA检测:表达丰度(mRNA,miRNA等)DNA检测:SNP检测、CNV检测、甲基化检测SAGE基因表达系列分析:一种以DNA序列测定为基础定量分析全基因组表达模式的技术,能直接读出任何一种细胞类型或组织的基因表达信息。SAGE主要过程:1,构建SAGE文库
1. 以biotin-oligo dT为引物将mRNA反转录合成双链cDNA,经锚定酶(AE)切后收集cDNA的3’端部分
2. 将收集的3’端部分等分为两部分,分别同接头A、B相连接,接头包含引物、AE、TE(标签酶)site
3. TE切(9bp),混合连接,双标签体,扩增
4. AE切,互相连接,克隆至载体内形成一个SAGE文库以备集中测序

2,SAGE文库的测序3,标签序列的提取在所测得序列中的每个双标签体之间由锚定酶序列相间隔,每一标签序列是否出现以及出现的频率将代表基因是否表达以及表达的水平SAGE技术的优缺点:
1. 较全面获取生物的基因表达信息
2. 对基因序列没有选择性
3. 所需的样品量极少(100ng mRNA)
4. SAGE技术具有较好的重复性
5. 发现新基因
6. 设备简单
7. 同表达谱芯片技术具有互补性和挑战性
8. 成本较高,方法较复杂
9. 10bp序列表征基因尚有缺陷