转录组分析的正确姿势你了解了吗？

原创

wx643df9f1afa1d 2023-07-26 15:34:02 ©著作权

©著作权归作者所有：来自51CTO博客作者wx643df9f1afa1d的原创作品，请联系作者获取转载授权，否则将追究法律责任

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较，寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本，并进行结果可视化、功能注释和网络分析等。

转录组的测序分析也相对成熟，从RNA提取、构建文库、上机测序再到结果解析既可以自己完成，又可以在专业公司进行。

概括来看转录组的分析流程比较简单，序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅，可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的，有什么需要注意的，结果怎么解读，后续分析怎么做。这些只有自己动手操作过，才可能有理解。而理解了一个，再去做其它类型分析，也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复，并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度；而研究新转录本和可变剪接则需要更深的测序；一般来讲长RNA-seq文库测序深度满足可用reads在20-30 million (如果测PE150，换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应，保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制，但记录下对应的操作时间和批次，最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化或高颜值免费在线绘图工具升级版来了~~~)，从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起，这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼，做了批次效应矫正后，表达图谱按组织而非物种聚在一起了（高通量数据中批次效应的鉴定和处理 - 系列总结和更新）。

测序环节通常不需要自己操作，测序公司都很成熟，但测序的原理需要知道。这会影响到后续分析时参数的选择，比如知道什么是插入片段大小，什么是链特异性测序，什么情况会有接头序列，双端测序如何测等。

获得数据后，就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否，指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响，同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解，是进行这些工作的基础。

39个转录组分析工具，120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具，序列拼装工具，定量工具和差异分析工具。值得我们在进入正式的分析之前，仔细阅读。另外类似的评估文章，还有几篇，都可以一并读一下，这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么，不告诉你这么做的原因是什么，而且每一步细分开来又有很多小细节需要注意，比如在比对环节就会涉及到：不同的样本如何选择合适的基因组和注释文件，什么样的软件支持Junction reads的比对，什么样的比对率是合适的，比对质量怎样，测序中RNA有无降解或选择偏好性，测序饱和度如何等。

这些可能都不会体现在最终的结果中，但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的，提供了格式正确的输入，就可以得到输出，但输出正确与否，就得靠人的经验来判断了。

在后面的差异基因鉴定阶段，还存在把FPKM值转换为整数再提交给DESeq2做分析的，软件不报错，但结果不对。或者能顺着教程运行DEseq2分析，但换成自己的数据就不知道如何下手的（DESeq2差异基因分析和批次效应移除）。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。

做下测试题看看了解多少？

这当然是一个耗时耗力的过程，那么有没有一个更好的方式呢？

那就是第十二期高级转录组分析和R数据可视化

（部分视频可在B站空间免费查看：https://www.bilibili.com/video/BV1rD4y1272a）

转录组分析的正确姿势你了解了吗？_java

基于以往11次转录组培训，转录组课程内容成熟，可以在最短的时间学会最多的知识。

之前的培训重点都在前面的流程分析，这次做了调整，流程分析整理一个清晰的输入、输出框架，包装好的流程脚本和参数注意，快速实战操作从源头。重点调整到后续的定制分析和绘图，涉及常见GO分析、单细胞转录组的聚类分析、配对样品和时间序列样品的GSEA富集分析、结合motif预测和转录因子ChIP的调控网络分析、定制化图形绘制、Cytoscape进行富集分析、调控网络、通路的可视化，目标基因筛选和可视化, WGCNA加权共表达网络分析。

每部分都提供清晰的思维导图方便理解输入、输出、命令、参数和注意事项。

后续在我们的培训群也会提供长期的免费图形绘制合作服务，跟大家分享绘图代码，一起学习。

第十二期高级转录组分析和R数据可视化在于2020年11月27日在线开班，将系统讲述基于和不基于比对的转录组分析流程，从原始数据到表达矩阵、差异基因、可变剪接、富集分析、加权共表达网络、通路分析、可视化绘图等一系列常见操作，理论和实践兼备。

课程大纲

每节课1小时一个主题，理论结合实战，学懂原理，实战实操，全是老司机多年经验和代码的无私分享。下面是课程安排，如11代表第一天第一节课，26代表第二天第六节课，41为两周后的线上集中视频答疑。

编号	内容	简介
01	预习Linux基础	预付后提供学习视频
02	预习R基础	预付后提供学习视频
03	软件安装	预付后提供安装视频
11	转录组概述	转录组设计、应用、批次效应等
12	转录组分析流程简介	基于/不基于比对的分析流程讲演
13	Salmon定量实战	不基于比对直接定量基因和转录本的表达
14	差异基因分析	DESeq2多组差异基因分析和结果可视化
15	GO富集分析和可视化	泡泡图、热图、网图
16	GSEA富集分析和可视化	分组和时间序列GSEA
21	二代三代测序原理介绍	建库测序过程及注意事项
22	R基础	数据读写、处理、转换
23	R数据可视化	16种常见图形绘制实战
24	Linux基础	详细解释Linux代码和文件格式转换
25	转录组环境配置	Linux下软件安装、配置
26	文章常见图表绘制和解读	Illustrator制作CNS标准图版
31	可变剪接分析	STAR，StringTie，rMATS，IGV
32	可变剪接分析	STAR，StringTie，rMATS，IGV
33	WGCNA基因加权共表达	网络分析和性状关联
34	Cytoscape绘制	共表达网络和调控通路网络图
35	每人一个问题环节	自评学习效果、知识点回顾
41	答疑-线上	答疑、考试内容串讲

该课程为第12期，整个过程都比较成熟，可以在最短时间学习最多知识。

看看往期学员对我们的评价吧。

转录组分析的正确姿势你了解了吗？_可视化_02

转录组分析的正确姿势你了解了吗？_可视化_03

转录组分析的正确姿势你了解了吗？_人工智能_04

转录组分析的正确姿势你了解了吗？_人工智能_05

转录组分析的正确姿势你了解了吗？_大数据_06

教程内容简介如下：

转录组的应用、设计和案例分享

转录组分析的正确姿势你了解了吗？_java_07

转录组学研究技术介绍
转录组学实验设计和测序原则、注意事项
二代、三代测序过程和原理解析
转录组学文章案例分析
在线基因表达资源数据库

转录组分析流程实战

转录组分析的正确姿势你了解了吗？_可视化_08

转录组分析流程评估
测序数据质量评估和清洗
不基于比对的差异基因分析
基于比对的差异基因分析
转录本组装和选择性剪接分析
目标基因GSEA/GO富集分析

转录组高级分析

转录组分析的正确姿势你了解了吗？_编程语言_09

WGCNA基因共表达分析
WGCNA基因、表型关联分析
Cytoscape 共表达网络绘制
转录组常见图形在线绘制
KEGG/Reactome通路图绘制，表达映射
基因互作的文献挖掘和数据库挖掘展示

常见图表解读和图形编辑排版

在培训上，结合发表高水平文章，进一步讲解16种常用分析图的原理和使用范围，让你不仅读懂图，更知道如何应用于自己的研究，并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题，易生信团队针对常用16种图开发了免费绘图网站，一键出图，更可鼠标点选参数修改图形的个性样式。

成果发表是科研过程中不可缺的一部分，发表成果又少不了图形展示。文章图表排版是否整齐规范、协调一致、重点突出对一篇文章的发表也是有不少贡献的。之前推出的文章发表图的修改和排版讲演了部分图形编辑和排版操作，本次培训也会实践从原始图形、到细节修饰再到排版发表的整个过程和注意事项。基因组浏览器用于多组学数据的可视化和关联分析，本地有IGV，在线有UCSC genome Browser和Epigenomebrowser，各有特色。