01

摘要



癌症基因组测序的主要动机之一是为发现驱动突变,本项工作作为ICGC/TCGA全基因组分析(PCAWG)联盟的一部分(该联盟收集了来自38个肿瘤类型的2658个癌症的全基因组测序数据,描述了DriverPower软件包,该软件包使用突变负荷和功能影响证据来识别癌症全基因组中编码和非编码位点的驱动突变。DriverPower使用了共计1373个来自公共资源的基因组特征来构建背景突变模型,通过结合功能影响评分,对来自PCAWG项目的2583个癌症基因组进行测试以确定是否能提高驱动突变识别的准确性。该工作中构建的背景突变模型解释了多种肿瘤类型的突变率中高达93%的区域差异,DriverPower确定了217个编码和95个非编码driver候选。与PCAWG工作组使用的六种已发布方法相比,DriverPower在编码和非编码驱动突变发现方面的F1得分最高。这表DriverPower是用于计算和发现驱动突变的有效框架。







02

介绍



driver突变占肿瘤中体细胞变异比例少,此外在大多数癌症中,肿瘤内和肿瘤间存在明显的异质性,背景突变率(BMR)都可能存在数个数量级的差异。WGS的出现为识别driver驱动带来了新的挑战,对于突变对基因组非编码区的影响了解得少。大多数最新技术通过突变负荷测试或功能影响测试来检测阳性选择信号,从而识别驱动突变。






03

材料和方法


基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java

   


                图1.DriverPower概述

为了使准确性最大化,作者结合了两种突变显着性测试方法来开发DriverPower,DriverPower是使用突变负担和功能影响评分来识别编码和非编码癌症驱动程序的框架,并描述通过将该方法应用于ICGC / TCGA全基因组全癌基因泛癌分析(PCAWG)数据集而鉴定的候选驱动程序突变。PCAWG协会汇总了ICGC和TCGA项目生成的38种类型的2658种癌症的WGS数据。这些测序数据用标准化的高精度流水线进行重新分析,以与人类基因组对齐(hs37d5),并鉴定种系变体和体细胞获得的突变。然后,证明DriverPower在编码和非编码驱动程序发现方面都优于几种已发布的方法,并讨论了由DriverPower确定的一些新颖的候选对象。



04

结果



  

BMR模型:

准确的driver突变检测需要准确估计整个肿瘤基因组中的BMR(背景突变率),并考虑到肿瘤类型,供体和基因组区域之间的广泛差异。DriverPower通过建立BMR模型来解决这个问题,它使用了与局部BMR共同变化的许多基因组特征。

作者研究了两种基于基因组特征的BMR建模算法。第一个算法是先采用随机lasso,之后是二项式广义线性模型(GLM),第二种算法是基于梯度提升机(GBM)。为了评估这两种BMR建模算法,通过随机采样基因组坐标,制作了不重叠的1兆碱基对(Mbp)常染色体元件(n = 2521)和训练基因组元件(n = 867,266)。然后使用五重交叉验证(CV)预测每个元件的突变数。

基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_02

            图2.两种算法对BMR的预测情况示例

    当使用1-Mbp常染色体元件进行评估时,发现这两种算法都可以准确预测BMR。在高突变负荷肿瘤队列中,观察到两种算法之间基本上没有区别,但是当应用于低突变负荷肿瘤队列时,GBM始终优于GLM。

基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_03

图3.对于大型人群,如全癌组(N = 2253),这两种模型都可以解释约93%的突变率方差(b)。当将模型应用于测试元素集时,该模型仍然显示出出色的性能,可以解释泛癌队列中83%的突变率方差(c)

基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_04

4.BLMGBM均可用于以不同方式对特征重要性进行排名。两种方法的特征选择排名均证实H3K9me3(与异染色质相关),复制时机和H3K27ac(或其拮抗组蛋白标记H3K27me3)是BMR的最重要预测因子组。

 

功能校正:

在大多数基于负荷的方法中,均对突变进行加权。但并非所有突变都具有相同的功能后果。为了合并功能后果信息,DriverPower实现了功能校正,该步骤可增强具有较高预测功能影响的突变。在当前实施中,我们使用四个已发布的评分方案(CADD16,DANN17,EIGEN18和LINSIGHT19评分)来衡量功能影响,使用四个方案分数的平均权重。

候选driver发现:

根据参考的driver元素集和其他六个已发布方法calling 候选driver的程序对结果进行了基准测试。使用了三个参考驱动程序元素集:COSMIC癌症基因普查(CGC),PCAWG原始综合驱动程序候选(PCAWG-raw),和PCAWG共识驱动程序候选(PCAWG-consensus)

   在这六种方法中,ExInAtor20,ncdDetect21和LARVA22仅使用突变负荷信息。oncodriveFML23仅使用功能偏差;而MutSig24和ActiveDriverWGS25既可以对突变负担也能通过功能校正进行建模,但不能通过功能影响评分来校正建模。在DriverPower结果中观察到了经过良好校准的p值,并且编码和非编码驱动程序发现的准确性都很高。


基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_05

 图5.对于CDS,发现217个候选driver,唯一基因数是131。DriverPower结果82.5%(179/217)存在于CGC中,仅3.7%(8/217)编码驱动程序候选者未包含在任何参考基因集中。

基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_06基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_07

图6.与使用相同的26个非黑素瘤/淋巴瘤队列和CGC作为金标准集的其他六种方法进行比较时,DriverPower在编码元件和非编码元件上都有着最高的F1得分。

 

DriverPower识别出了专有的驱动突变:

    DriverPower识别出了11种编码和17种独特的非编码候选(在CGC或PCAWG共识中不存在),使用文献证据和相关的正交数据,例如变体对RNA-seq表达水平的影响以及覆盖相同区域的体细胞拷贝数变化(SCNA)和体细胞结构变异(SV)的存在,来评估这些独特的候选驱动突变。在此基础上,有4个编码和4个非编码区的候选是具有文献或正交数据支持的。为了证明DriverPower的鲁棒性,将DriverPower应用于两个公共全外显子组测序(WES)数据集,结果也显示该软件包有着很高的准确性。

05

05


讨论




区分整个癌症基因组编码区和非编码区中的驱动突变和乘客突变十分重要。在这里,文章报告了DriverPower,这是一个通过组合突变负荷和功能影响信息来准确识别两种类型的驱动突变的新框架。该方法利用了WGS技术产生的大型体细胞突变集,利用一千多个基因组特征构建了准确的全局BMR模型,与使用选定区域或侧翼区域构建本地BMR模型的方法形成对比。其优点之一是该方法不偏向编码区,而是使用相同的模型进行编码和非编码癌症驱动程序的发现。该方法的另一个优点是该方法的高度模块化。DriverPower可以与任何类型的基因组元素(连续的或不相交的,编码的或非编码的,接近或远离基因的基因),用于建模BMR的任何回归算法以及任何功能影响评分方案一起使用。尽管DriverPower是为WGS项目设计的,但它在WES策略中也表现出色。


基于DriverPower结合负荷和功能影响测试发现癌症driver突变_Java_08


参考文献:

 Combined burden and functionalimpact tests for cancer driver discovery using DriverPower.

Shimin Shuai,PCAWG Drivers and Functional Interpretation Working Group, Steven Gallinger,Lincoln Stein, and PCAWG Consortium

PMID: 32024818

Nat Commun. 2020; 11: 734.

Published online 2020 Feb 5. doi:10.1038/s41467-019-13929-1