01

摘要



  多组学数据集代表了分子生物学中心法则的不同方面。这种高维分子表达谱对数据解释和假设产生提出了挑战。ActivePathways是一种集成方法,可以融合统计数据发现跨越多个数据集显富集通路,合理化提供证据并突出显示相关基因。作为ICGC /TCGA全基因组泛癌分析(PCAWG)联盟的一部分,该联盟汇总了来自38种肿瘤类型的2658种癌症的全基因组测序数据,我们整合了具有编码和非编码突变的基因,并揭示了频繁突变的通路和其他具有罕见突变的癌症基因。我们还通过整合1780种乳腺癌的基因组和转录组学特征分析了预后分子通路,并突出了与免疫应答和抗凋亡信号转导的关联。整合在整个正常人类组织中Hippo通路主要调控因子的ChIP-seqRNA-seq数据确定了组织再生和干细胞调控的过程。ActivePathways是一种通用方法,可通过整合多个分子数据集和通路注释来提高系统对健康和疾病细胞组织的理解。




02

介绍



  通路富集分析是解释高通量(组学)数据的重要步骤,该数据使用了有关基因和生物学过程的最新知识。常见的应用确定了长列表中的候选基因的分子通路,生物学过程和其他功能注释的统计富集。基因组,转录组学,蛋白质组学和表观基因组实验强调基础生物学的互补方面,并且最好进行综合分析。许多方法可用于解释单个基因列表。例如,GSEA算法可以检测基因表达数据集中的上调和下调通路。基于Web的方法(例如Panther8ToppCluster9gProfiler10)可在排名或未排名的基因列表中检测到显着富集的通路,通常适用于来自各种分析的基因和蛋白质。一些方法允许分析多个输入基因列表,但是这些方法主要依靠可视化而不是数据集成来评估不同基因列表对每个检测通路的贡献。最后,尚无方法可用于对来自全基因组测序(WGS)数据的编码和非编码突变进行统一通路分析,或将其与其他类型的DNA突变整合在一起。

  癌症基因组的特征是多类突变,包括单核苷酸变异(SNV),小插入缺失(indels),拷贝数变化和易位。这些会影响少数经常突变的泛癌驱动基因,例如TP53,不那么常见的组织特异性基因,例如前列腺癌中的SPOP,以及许多不经常突变的基因。

  在这里,我们报告ActivePathways方法研发,该方法使用数据融合技术来应对多组学数据的整合通路分析的挑战。它检测跨多个数据集的显着丰富的通路,包括在任何单个数据集中都不明显的通路。我们提出一些分析来证明这种方法。首先,我们将使用PCAWG数据集预测的具有编码和非编码突变的癌症驱动基因进行整合,并揭示了众多过程以及具有频繁编码和非编码突变的其他基因。其次,我们将患者的临床信息与METABRIC项目的转录组和拷贝数变化进行整合,以发现乳腺癌亚型的预后通路和过程。第三,我们将GTEx项目的正常组织的转录组数据与ChIP-seq数据进行整合,以推断组织生长控制和再生的Hippo通路下游的基因调控网络和生物学过程。因此,ActivePathways是一种用于组合各种多元组学数据集的通用方法。





03

材料和方法



整合和基于证据的基因列表

  ActivePathways的主要输入是P值矩阵,其中行包括基因组的所有基因,列对应于组学数据集的证据。为了解释多个组学数据集,使用数据融合方法为每个基因计算了组合的P值,从而得到了完整的基因列表。通过使用Fisher组合概率检验的Brown扩展将给定基因的所有P值合并为一个组合的P值,从而计算出综合基因列表。然后,按重要性降低的顺序对Brown P值的综合基因列表进行排序,并使用宽大的阈值(默认情况下未调整的P <0.1)进行过滤。代表不同组学数据集的基于证据的基因列表基于来自输入矩阵各个列的排名P值,并使用相同的显着性阈值进行过滤。


显著富集的通路

用排秩超几何检验对候选基因列表中的通路进行统计富集。该测试一次考虑一个通路基因集,并从排名靠前的基因列表顶部分析输入基因的递增子集。整合和基于证据的基因清单使用相同的程序。在每次迭代中,测试都会计算该通路和输入基因列表的顶部子列表共享的一组基因的超几何富集统计量和P值。为了获得最佳处理速度,仅考虑以通路相关基因结尾的基因列表。排秩的超几何统计量选择了实现最强富集和最小P值的输入基因子列表,作为给定路径的最终结果。

整合多组学数据的通路富集分析_Java


评估富集通路的组学证据

还对来自单个组学数据集的每个基于证据的基因列表进行了分析,并使用排秩超几何检验来分析其富集的通路。然后,如果在任何基于证据的基因列表中发现它们也很重要,则将标记在综合基因列表中的通路标记为支持证据。仅在数据整合中发现一条通路被认为仅通过数据整合才能找到,并标记为仅合并的,前提是该通路被鉴定为在整合的基因列表中富集,但未在等同的显着性临界值处被鉴定为在任何基于证据的基因列表中富集(默认 Q <0.05)。此外,还为每个检测到的通路添加了在候选基因的最佳子列表中明显存在的通路基因,这些通路基因分别针对综合基因清单和每个基于证据的基因清单。

通路和过程

我们使用了GO的生物学过程和Reactome数据库的分子通路相对应的基因集,该基因集于2018126日从gProfilerWeb服务器下载。大型通用基因集包含1000多个基因,小型特定基因集包含少于5个基因基因被排除在外是为了避免大基因列表的统计膨胀和极小列表的解释挑战。


富集图可视化

ActivePathwaysCytoscapeEnrichmentMap应用程序创建输入文件,以根据支持证据对相似路径及其颜色进行网络可视化。通过将由启动子,增强子和/UTR的非编码突变评分所支持的通路的颜色合并为一组,重新排列腺癌富集图中的通路的颜色。


PCAWG数据集的编码和非编码突变

  我们使用ActivePathways分析了ICGC-TCGAPCAWG项目白名单中2583个完整癌症基因组中编码和非编码突变的驱动driver预测。蛋白质组序列,启动子,增强子和非翻译区(UTR3UTR5)分别计算driver预测的P值。ActivePathways的结果已通过两个癌症基因列表进行了验证。通过对所有类型元素(外显子,UTR,启动子,增强子)的严格多次测试校正后,从PCAWG共识分析中预测的驱动因素被选为具有统计学意义的发现(Q <0.05)。COSMIC癌症基因普查(CGC)数据库中检索了已知癌症基因的列表。使用所有人类蛋白质编码基因作为统计背景集,我们使用了单尾Fisher的精确测试来估计这些基因的富集程度。


乳腺癌CNAmRNA的预后信号

ActivePathways用于评估乳腺癌亚型的预后通路。多种组学数据用于综合分析:mRNA基因表达数据和基因拷贝数改变(CNA)数据来自1991METABRIC队列的患者,每个患者均只有一个原发的新鲜冷冻乳腺癌标本。 Curtis等人使用基于PAM50 mRNA的分类器将患者分为固有的乳腺癌亚型,从而导致330例基底样乳腺癌,238例富含HER2的乳腺癌,721A型乳腺癌,491B型乳腺癌。使用这些数据,我们从体积较大的标本中计算出反卷积的肿瘤细胞(TCmRNA和肿瘤邻近细胞(TACmRNA的丰度水平。使用MATLAB中的ISOpure21方法版本2010b解卷积TC mRNA。使用RISOpureR22v1.1.2中的ISOpure.calculate.tac函数计算TAC mRNA丰度分布。对每种乳腺癌亚型分别进行去卷积分析。


Hippo 通路靶基因的mRNAChIP-seq数据

该分析包括两种类型的组学数据:来自RNA-seq实验的mRNA丰度测量和来自染色质免疫沉淀测序(ChIP-seq)实验的转录因子DNA结合测量。可从GTEx v7数据门户(https://www.gtexportal.org/home/)下载人体组织的RNA-seq数据集。该数据集包括横跨53个组织的11,688个样本中21,518个蛋白质编码基因的转录本丰度值。可利用的样本少于25个且基因表达水平较低(平均TPM<1.0;百万分之一的转录本)的组织被排除在进一步分析之外,导致40个组织和9672个样本的mRNA丰度分布为19,025个基因。在以下两个步骤中分别预测了主转录因子YAPTAZ(由YAP1WWTR1编码)的转录靶基因列表。首先,我们计算了给定TF与目标组织内所有其他基因之间的成对Pearson相关性,并通过正相关性的显着性P值对它们进行排序。其次,使用具有默认参数的强秩聚合(RRA)方法(Qgene<0.05),将得到的排名基因列表汇总到整个GTEx组织的一个主要目标基因列表中。经过FDR调整的RAPYAPTAZ基因的值分别用作输入ActivePathways的第一和第二证据。   








04

结果



使用ActivePathways进行多组学通路富集分析

ActivePathways需要两个输入数据集。第一个输入是P值表,第二个输入是一组基因集,代表基因功能和相互作用的通路。最常见的分析利用了来自基因本体论(GO)的生物过程和来自Reactome数据库的分子通路。根据假设,这些数据可能还包括许多其他类型的基因集,例如转录因子或microRNA的靶标。

ActivePathways的第一步中,我们获得一个集成的基因列表,该列表对于每个输入基因而言,从多个组学数据集中聚合了重要性。使用Fisher组合概率检验的Brown扩展,通过融合来自不同组学数据集(即证据)的基因重要性,来编制综合基因列表。然后,通过降低重要性对综合的输入基因列表进行排序,并使用宽容截止法进行过滤,该截止阈值旨在捕获具有次重要信号的其他候选基因,同时丢弃大量无关紧要的基因(未经调整的Brown Pgene<0.1)。在第二步中,使用排秩超几何检验和一组基因集(即生物学过程,分子通路和其他基因注释)对整合的基因进行通路富集分析。然后,将霍尔姆的家庭式多重测试校正方法应用于所有测试路径,以选择在整合基因列表中显着丰富的路径(Qpathway<0.05)。在第三步中,我们分别对各个组学数据集的基因列表进行相似的分析,以确定支持步骤2中确定的整合通路分析结果的组学证据。最后,该方法提供了富集图的输入文件,以通过相应的组学证据可视化所得通路。


2658个癌症基因组中整合编码和非编码driver

我们对基于体细胞SNV和插入缺失的PCAWG项目中预测的driver基因进行了整合通路分析。该分析包括29个组织学肿瘤类型的癌症患者队列和18个合并多种类型肿瘤的meta队列,总共47个队列。ActivePathways89%的这些队列中确定了至少一个显着富集的过程或通路(42/47Qpathway<0.05,排名超几何检验)。我们分析了支持丰富通路预测的证据:大多数队列研究表明,基因编码蛋白质突变支持的通路丰富(37/4779%)。

基因中的非编码突变也广泛促成了频繁突变的生物过程和通路的发现:24/47队列(51%)显示出显着丰富的通路,只有在分析对应于UTR,启动子或增强子的非编码驱动者评分时,这些通路才明显。大多数PCAWG肿瘤队列(41/4787%)揭示了一些常见的突变通路,这些突变在整合编码突变和非编码突变时很明显,但是在单独考虑编码突变或非编码突变时仍未被发现,从而强调了我们整合抗体的价值方法。

我们研究了16种肿瘤类型的1773个样本的腺癌队列。整合通路分析强调了432条基因,这些基因在526条通路中显着富集(Qpathwaypath<0.05)。如预期的那样,大多数通路仅由具有频繁编码突变的基因(328/52662%)支持。但是,编码和非编码基因突变均支持另一组101条通路(19%),仅在编码和非编码突变的综合分析中明显存在72条通路(14%),而25条(%)仅富含非编码突变。

这些数据表明,ActivePathways是一种用于集成诸如编码和非编码突变之类的多组学信号,解释支持的组学证据以及查找在任何单个输入数据集中都不明显的其他功能关联的灵敏方法。


很少突变的癌症基因基于通路的优先次序

通路分析可以鉴定候选基因,否则这些候选基因在基于基因的分析中将无法被检测到。ActivePathways通过集成多个数据集中的信号来增强这种发现。在PCAWG中编码和非编码突变的通路分析中,我们集中于一组肾脏发育过程,这些过程仅通过整合编码和非编码突变而被检测到。ActivePathways发现了18个与这些过程有关的基因,在PCAWG项目的共识驱动因素分析中只有5个被预测为驱动基因。ActivePathways可以利用功能性基因注释和多种组学信号来寻找在基因集中分析中未发现的其他候选基因。

我们评估了我们的数据整合策略的效果,并检查了在腺癌队列中检测到的所有333条与通路相关的候选基因。如预期的那样,这些包括相当一部分已知的癌症基因。我们在COSMIC癌症基因普查数据库中发现了一组注释的47/333个已知癌症基因,这些基因在驱动程序分析中未检测到,大大超过了偶然的预期(预期的七个基因,Fisher的精确P = 4.0×10−24)。ActivePathways之所以能够检测到这些其他基因,有几个原因。首先,使用ActivePathways中的宽容统计截止值(Pgene<0.1)过滤整合的基因列表,该路径允许通过路径关联检测到具有较少突变的273/333个基因的长尾巴。其次,某些基因通过数据融合程序进行了升级,因为每个基因的单个更强P值是通过组合对应于该基因的编码区,启动子,UTR和增强子的多个较弱P值而得出的。


整合乳腺癌的CNAmRNA预后信号

为了证明对患者临床信息与多种组学数据的综合分析,我们研究了与乳腺癌患者预后相关的通路和过程。我们利用METABRIC数据集,从所有四个亚型(富含HER2的,基底样的,管腔A,管腔B)中抽取的1780个乳腺癌样品,并使用三种类型的预后证据评估了所有基因。

ActivePathways在四种亚型的乳腺癌中鉴定出192种显着丰富的GO生物学过程和Reactome通路,其中9种通路在多种癌症亚型中均富集,其中33种通路仅通过综合通路分析而显而易见,而在任何CNAmRNA数据集中均不明显单独。丰富的乳腺癌亚型预后标志的主要发现涉及免疫应答,细胞凋亡,核糖体生物发生和染色体分离的过程和通路。

免疫活性与基底样癌和富含HER2的乳腺癌的预后基因相关。细胞凋亡与富含HER2的和管腔A型乳腺癌的患者预后有关。ActivePathways还确定了仅在单一乳腺癌亚型中可见的预后通路关联。

整合多组学数据的通路富集分析_Java_02


解释Hippo 转录因子的共表达和DNA结合靶标

为了证明ActivePathways在研究基因调控中的用途,我们分析了GTEx项目的非癌性人类组织的转录组。我们专注于参与器官大小控制,组织稳态和癌症的Hippo信号通路,并研究了两个转录因子(TFsYAPTAZ(由YAP1WWTR1编码)下游的调控网络。YAPTAZ是哺乳动物中Hippo信号的进化保守主调节剂,它们对细胞间和细胞间相互作用,细胞极性,机械提示,G蛋白偶联受体信号传导和细胞能量状态的细胞内和细胞外信号作出响应。

我们对Hippo通路的两个主要调控子的转录组学和表观基因组学数据进行了综合通路富集分析。首先,我们在40个组织类型的GTEx9642个转录组上使用共表达分析和鲁棒秩聚预测了YAPTAZ的转录靶基因(分别为18981319基因)(Q <0.05)。其次,我们研究了在2356YAP靶基因,这在ReMap数据库中进行了重新分析(Q <0.05)。具有相应显着性值的三个基因列表被用作ActivePathways的输入以进行综合分析。

YAP / TAZ转录和DNA结合靶基因的综合分析导致225个显着富集的GO过程和Reactome通路(Qpathway<0.05)。Hippo信号传导的背景下预期产生的通路包括发展和形态发生,细胞运动,肌动蛋白细胞骨架和细胞间连接的组织,信号转导通路如EGFRWntRoboTGF-βrho GTPase

大部分通路(55%或24%)仅在综合分析中发现,而未在任何输入数据集中单独发现,强调了检测跨多个互补组学数据集的显着富集通路的优势。类似地,与河马相关的基因或者仅由ChIP-seq数据(54个基因),仅由mRNA数据(30个基因)或由mRNAChIP-seq数据(22个基因)共同支持,

除了GO术语和通路外,ActivePathways还可用于解释具有其他功能基因集(例如TF靶基因)的组学数据。为了进一步阐明YAP / TAZ下游的基因调控网络,我们考虑了ENCODE项目的ChIP-seq研究中分析的161TFDNA结合靶基因的潜在富集。我们发现了一个由17TF1426个靶基因组成的调控网络,这些基因富含YAP / TAZ调控组(Q <0.05,排秩超几何检验)。该调节网络显着丰富了50个与Hippo相关的基因(预期25个,P =1.2×10-7Fisher精确检验)和6个核心Hippo基因(两个预期,P = 0.030;WWTR1VGLL4TNIKMAPK8MOB1A LATS1),类似于上述基于路径的分析。但是,这两种分析揭示了不同的基因:两种分析通常发现886个基因,仅在基于通路的分析中发现1180个基因,仅在基于TF的分析中发现540个基因。


评估ActivePathways的鲁棒性和敏感性

我们使用PCAWG预测的癌症驱动基因的数据集仔细地对ActivePathways进行了基准测试。首先,我们将ActivePathways的性能与PCAWG通路和网络分析工作组中使用的六种方法进行了比较(分层HotNetSSA-MENBDI,诱导子网分析,CanIsoNet,超几何检验)。ActivePathways以最高的准确性恢复了这些共有基因列表:检测到100%的编码驱动基因(87/87)和85%的非编码候选基因(79/93)。我们还将ActivePathways的性能与标准的通路富集分析方法进行了比较。我们评估了ActivePathways对参数变化和数据丢失的鲁棒性。我们评估了ActivePathways的预期误报率。




05

05


讨论




整合的通路富集分析有助于将数千个高通量的测量结果提取到数量较少的通路和生物学主题中。ActivePathways提供了一个普遍可用的框架,可用于系统优先化利用基因重要性融合的多个组学数据集中的基因和通路。这使我们能够确定在合并数据时脱颖而出的通路和过程,但在任何单个分析的数据集中都不明显。我们的通用通路分析策略适用于各种数据集,其中可为整个基因或蛋白质提供经过良好校准的P值。

我们的方法带有重要的警告。首先,我们仅评估通路数据库中注释的基因和蛋白质。这样的数据库覆盖范围可变,依赖于频繁的数据更新,并且可能会丢失稀疏注释的候选基因。通路富集分析的最一般类型考虑生物过程和分子通路,但是资源中可用的多种基因集(例如MSigDB)可用于扩展ActivePathways的范围。其次,通路信息是高度冗余的,对丰富的分子数据集进行分析通常会得出许多反映相同基础通路的重要结果。我们通过可视化和总结通路结果作为富集图来解决这种冗余,该图将多个相似的通路和过程总结为一般的生物学主题。通过严格的多次测试校正可以解决伴随生物冗余而导致的结果统计上的膨胀。第三,该分析将通路视为基因集,而不考虑通路中基因的相互作用。这种简化的策略使我们可以考虑更广泛的通路和过程,因为可靠的机械相互作用通常是特定于上下文的,并且仅限于经过充分研究的信号通路的一小部分。

整合多组学数据的通路富集分析_Java_03









参考文献:

 Integrative pathway enrichment analysisof multivariate omics data.Marta Paczkowska1.et.al.PMID:32024846,Nat Commun.2020Feb 5