常见的基因功能富集分析方法可以认为分两代。

(1)第一代:基于目标基因集预筛选的功能富集分析方法

基本步骤包括两步:

(a)从背景基因集合,按照一定固定阈值(例如,是否差异显著)筛选目标基因集。这属于一个二分类的策略,例如将基因分为差异表达与无差异表达的。

(b)通过一些统计方法(例如,超几何检验)证明目标基因集(例如差异表达基因)的基因更多集中在某些通路中。

第一代富集分析方法,简单易懂,所以我们常见的结题报告基本上都使用这类方法。但第一代富集分析方法最大的不足就是:筛选目标基因集的标准(例如差异分析中的差异倍数大于2 & FDR <0.05)会直接影响富集分析的结果,尤其当差异基因很少的时候,可能无法富集到任何通路。

(2)第二代:基于所有基因评分或排序的功能富集分析方法

第二代功能富集分析方法则可以很好弥补第一代方法的不足,最有代表性的方法就是GSEA(Gene Set Enrichment Analysis)的方法。以GSEA为例,分析也可以分为两步:

(a)利用某个指标(例如差异倍数)对所有基因进行排序(而不是用固定阈值筛选)。

(b)判断某个通路的基因在所有的排序中是否更为靠前(或靠后),来证明实验处理会该通路产生更显著的影响。

GSEA法因为不需要对数据进行预筛选,所以很好地解决了一代方法的不足,对通路富集的检测能力更加敏感(PS:在基迪奥最新版本的转录组结题报告中也加入了GSEA富集分析的内容)。

想了解更多关于GSEA的内容,请到基迪奥Omicshare class搜索关键词“GSEA”收看教学视频:

R语言进行基因TCGA的ID转化 r语言rnaseq 数据gsea分析_JAVA

GSEA分析可以直接使用单机JAVA版的GSEA软件完成,但该软件的一大不足就是绘制出的GSEA图上不了台面。

R语言进行基因TCGA的ID转化 r语言rnaseq 数据gsea分析_如何用r语言搜集报表_02

JAVA版的GSEA软件图形输出格式是png格式,主要有问题包括:

(1)像素偏低,发文章略显清晰度不够(应该没有到达300dpi);

(2)图有些丑,例如周边是灰色,背景加网格线(当然,也看每个人喜好);

(3)输出格式是位图,不利于后期编辑。

那么如何解决呢?比较简单的解决方案是:GSEA  + R的策略:

(1)用GSEA软件完成分析

(2)基于分析结果,用R语言绘图的

在本期Omicshare小课堂中,我们演示如何用一个R脚本(我们提供现成的脚本)绘制一个更简洁清晰的GSEA plot。代码非常简单,一学就会,如下:

>source("gseaplot_modified.r")
>replotGSEA("my_analysis.GseaPreranked_result","HALLMARK_TNFA_SIGNALING_VIA_NFKB","AML")

然后就可以绘制出如下的GSEA plot:画面简洁、像素足够且方便后期修图。

R语言进行基因TCGA的ID转化 r语言rnaseq 数据gsea分析_JAVA_03