01

摘要





在过去的十年中,蛋白质编码基因中癌症驱动程序突变的目录已大大扩展。然而,非编码癌症驱动基因突变的特征较差,仅报道了少数复发性非编码突变,最值得注意的是TERT启动子突变。在这里,作为ICGC  /  TCGA全基因组泛癌分析(PCAWG)联盟的一部分,该联盟汇总了来自38种肿瘤类型中2658例癌症的全基因组测序数据,之前通过路径和网络分析成功找到蛋白质编码基因中的稀有突变,作者对非编码突变进行了多方面的通路和网络分析通过使用ICGC  / TCGA  PCAWG项目编辑的来自27种肿瘤类型的2583个完整癌症基因组,虽然在这个队列中很少有非编码基因组元件被反复突变,但作者鉴定出了93个具有非编码突变的基因,这些基因聚集在相互作用蛋白的多个模块中。这些是与TP53,TLE4和TCF4中mRNA表达降低有关的启动子突变。作者发现生物学过程具有可变比例的编码和非编码突变,染色质重塑和增殖通路主要通过编码突变而改变,而发育通路,包括Wnt和Notch,都通过编码和非编码突变而改变。在该队列中,RNA剪接主要通过非编码突变来改变,并且众所周知的RNA剪接因子中包含非编码突变的样品表现出与这些基因中具有编码突变的样品相似的基因表达特征。这些分析为可能的癌症基因和机制(通过非编码突变改变)提供了新的方法,并提供了对可以研究潜在治疗方法。


02

介绍



  在许多癌症中,相当大比例的患者在蛋白质编码区没有已知的驱动突变,这表明仍未发现其他驱动突变。癌症驱动基因突变通过改变标志性通路的活性来释放细胞的致癌特性,事实证明,通路和网络分析可根据其通路成员以及与复发突变基因的物理或调节相互作用。在这里,作者采用了七个不同的通路和网络分析方法,并从这些方法的预测中得出了通路相关的驱动程序(PID)基因的一致集合具体来说,作者确定了使用非编码变体(PID-N)的93个高可信度通路相关的驱动基因的共识集和使用编码变体(PID-C)的87个通路相关的驱动基因的共识集。作者的分析表明,未翻译的和顺式调控区中的体细胞非编码突变构成了与编码突变有关的一组遗传扰动,影响了几种生物学通路和分子相互作用网络,因此应进一步研究它们在发病和发病中的作用。

03

材料和方法



   作者从PCAWG工作组上获得了一致的驱动因子p值。通过如下组合编码和/或非编码( core promoter,5‘UTR,3’UTR,增强子)基因组元件的PCAWG驱动因子的p值,形成编码和非编码基因评分。这些基因评分输入到五种利用了多个蛋白质-蛋白质相互作用网络分析算法(CanIsoNet,Hotarchical HotNet,an induced subnetwork analysis ,NBDI22和SSA-ME23)中,和两种利用多个通路/基因集数据库的通路分析算法(ActivePathways和超几何分析)。作者定义了一个非编码增值(NCVA)程序来确定那些非编码得分对编码和非编码分析结果有显著贡献的基因,其中一种方法的NCVA结果增加了其对非编码数据的结果。作者定义了一个共识程序,将这七种算法识别出的重要路径和网络结合起来。

2500多个完整癌症基因组的通路和网络分析_Java



04

结果



  

仅使用编码突变,作者就确定了一组具有编码变异(PID-C基因)的87条通路相关的驱动基因。87个PID-C基因包括31个在PCAWG工作组分析中不具有统计学意义的基因,说明网络邻域可以提名具有罕见突变的基因。有趣的是,根据CGC数据库,这31个FDR>   0.1的基因中有13个也是已知的驱动因子。仅使用非编码突变,就可以通过共有通路和网络分析来识别出62个基因,非编码增值”(NCVA)后,确定了另一组31个基因,一共有93个基因,93个PID-N基因包括19个先前根据COSMIC(CGC)数据库确定的癌症基因,比预期的3.2个基因有显着的丰富性。通过比较基因突变与表达的关系,作者发现TP53,TLE4和TCF4中启动子突变,与mRNA表达降低相关,DUSP22在5名带有有  3‘UTR突变的肺腺癌患者中表达显著低;3名带有5′ UTR 突变肺腺癌患者显著高。

     作者通过使用通路和网络分析,发现了多个生物学过程具有不同比例的编码和非编码突变。其中染色质重塑和增殖通路主要是编码区突变,而包括Wnt和Notch在内的发育通路则有编码区和非编码区突变。作者发现RNA剪接通路主要受非编码突变影响,样品中找到了已知RNA剪接蛋白的非编码区突变,而与这些基因的编码区突变样品相比,它们表现出相似的基因表达特征。



05

讨论



本研究的整合通路和网络分析确定了87个与编码变异有关的驱动基因(PID-C)和93个与非编码变异有关的驱动基因(PID-N),发现编码和非编码驱动突变主要针对不同的基因,并对癌症中受干扰的通路和网络做出不同的贡献。同时讨论了本研究的几点不足:首先,检测非编码突变的能力相对较低,尤其是在患者人数少的癌症类型中;转录组数据仅适用于一部分样本,这进一步降低了使用基因表达数据验证本研究的预测的能力;本研究的分析过分依赖于PCAWG工作组分析中的驱动突变的p值。因此,对于本研究的预测结果需要进一步的实验验证。对影响这些通路和网络的编码和非编码突变的研究将使更准确的患者分层策略,使针对通路的生物标记物的治疗方法成为可能。









参考文献:

Pathway and network analysis of more than 2500 whole cancer genomes. Matthew A. Reyna et al. PMID: 32024854 Nature Communications; 2020 Feb 5.