文章:Genomic basis for RNA alterations in cancer

接收: 2019-12-11

作者:PCAWG Transcriptome Core Group

链接:doi.org/10.1038/s41586-020-1970-0

摘 要

  转录本的改变通常是由癌症基因组中的体细胞变化引起的。癌症中描述了各种形式的RNA改变 (RNA alteration),包括:过表达剪接改变基因融合 (Overexpression/Altered splicing/Gene fusions)。然而,由于患者之间以及肿瘤类型之间的异质性 (Heterogeneity),以及通过转录组全基因组测序分析样本的相对较小的患者队列 (Small cohort),很难将这些归因于潜在的基因组变化。

  在这里,我们展示了迄今为止据我们所知的最全面的癌症相关基因改变目录,该目录是通过描述国际癌症基因组联盟(ICGC)和癌症基因组图谱(TCGA)的泛癌全基因组分析(PCAWG)联盟1,188名捐赠者的肿瘤转录组获得的。我们利用匹配的 (Matched)全基因组测序数据,将几种类型的RNA改变胚系体细胞DNA改变相关联,并确定了可能的遗传机制 (Genetic mechanism)。

  细胞拷贝数改变总基因 (Total gene)等位基因特异性 (Allele-specific expression, ASE)表达变化的主要驱动因素。

  我们鉴定了649个体细胞SNV与基因表达的顺式 (cis)相关性,其中68.4%与基因的侧翼非编码区相关 (Flanking non-coding region)。我们发现1,900个与体细胞突变相关的剪接改变,包括在靠近Alu元件的内含子内部的外显子形成 (Formation of exons within introns in proximity to Alu elements)。此外,82%的基因融合与结构变异相关,包括75个新类别的“桥接”融合 (由第三个基因组位置连接两个基因)。

  我们观察到不同癌症类型的转录组改变的特征不同,并且与DNA突变特征的变化相关联。本研究所获得的基因组背景下RNA改变的概要,为确定与癌症功能相关的基因和机制,提供了丰富的资源。

引 言

  为了更广泛地研究癌症基因组的改变,特别是在非编码区,PCAWG项目的成立是为了分析大量的全基因组样本,这些样本被贡献给ICGC和TCGA项目。个别项目没有使用相同的方法进行关键分析。因此,16个PCAWG工作组的一个主要重点是统一分析PCAWG数据。例如,PCAWG技术工作组领导了原始数据收集、全基因组测序数据的重新排列,并实施了核心体细胞突变检测流程 (Somatic mutation calling pipeline)。PCAWG的其它工作组集中于对拷贝数变异、结构变异、胚系变异、突变特征和驱动基因鉴定等进行统一分析。

  在此,我们报告了PCAWG转录组工作组对来自27种肿瘤类型的1,188个样本 (每类肿瘤154~6个样本;均值:44)的匹配可用的转录组和基因组图谱的联合分析 (Joint analysis of available matched transcriptome and genome profiling),提供了迄今为止我们所知的最大的癌症RNA表型及其潜在的遗传变化基础 (RNA phenotypes and their underlying genetic changes in cancer)资源 (Extended Data Fig. 1, Methods, Supplementary Results, Supplementary Table 23)

Nature | 癌症中转录组变化的基因组基础 (1)_python

Extended Data Fig. 1 | 1,188例PCAWG捐献者的泛癌表达谱

a,来自27种组织类型的肿瘤和正常RNA-seq数据。样本总数显示在柱状图的右边。灰色条表示匹配的健康样本。

b,女性和男性捐献者的数量。

c,来自PCAWG研究的肿瘤总数和匹配的健康样本。一组肿瘤(深紫色)已转移。

  总之,我们展示了转录组数据在理解特定DNA改变的不同维度如何促进癌变的重要性,并绘制出癌症相关RNA改变的图景 (Landscape)。

 癌症特异性胚系顺式-eQTLs 

Cancer-specific germline cis-eQTLs

  为了研究不同类型RNA改变的潜在机制,我们首先关注了基因表达水平的变化 (Extended Data Fig. 2)

Nature | 癌症中转录组变化的基因组基础 (1)_人工智能_02

Extended Data Fig. 2 | 概述:在分析中考虑的遗传变异的不同来源

a, 为了分析顺式调控,使用标准eQTL方法,分别检测单等位、单核苷酸 (Mono-allelic single-nucleotide)胚系变异 (SNV,蓝色)与总基因表达 (Total gene expression)的关联。(蓝色圆点SNV,在样本中存在完全相同的基因组位置;上图的示例有3处)

  由于体细胞SNV在队列中复发率较低 (Low recurrence,色圆点SNV,在样本中不存在完全相同的基因组位置;上图的示例有0处),根据它们相对于所观测的基因的位置 (例如启动子、5 ' UTR或内含子),体细胞SNV被聚集在负荷分类中 (Aggregated in burden categories) (例如上图的“Local somatic SNV burden”)。

  然后,使用eQTL方法测试局部SNV负荷,获取与所有基因的ASE globally关联,以及在每个基因水平上的总表达。通过检测与突变及表观遗传特征相关的总基因表达,来估计反式效应 (Trans effects)

  所有体细胞顺式eQTL分析的窗口大小为1 MbASE与胚系顺式eQTL分析的窗口大小为100 kb

b,概述:不同的数据集,及其对a中所述分析的贡献。

  胚系基因型来源于匹配的 (Matched)健康全基因组测序 (WGS)样本。与未受影响的 (Unaffected) WGS样本相比,来自肿瘤WGS的等位基因特异性SCNAs (体细胞拷贝数改变)、突变特征和局部SNV负荷。

  ASE和总表达 (Total expression/FPKM)来自肿瘤和正常RNA-seq数据。箭头表示所执行的单个分析之间的依赖关系。

  我们最初考虑了常见的胚系变异 (次要等位基因频率 (Minor allele frequency, MAF)≥1%)靠近单个基因 (±100 kb),并在队列中绘制了表达定量性状位点 (eQTL) (Extended Data Fig. 3, Supplementary Table 1)

Nature | 癌症中转录组变化的基因组基础 (1)_人工智能_03

Nature | 癌症中转录组变化的基因组基础 (1)_java_04

Extended Data Fig. 3 | 胚系eQTL中的先导变异 (Lead variants)

  该泛癌分析发现了3,532个eQTL基因 (假发现率,即FDR≤5%,以下表示为eGenes) (Supplementary Table 2),富集于转录起始位点的近端区域 (TSSs) (Extended Data Fig. 3)。

  为了识别癌症特异性调控变异,我们将我们的eQTL与来自基因型-组织表达项目 (GTEx,数据一般来自健康组织)的eQTL进行比较,采用之前的策略来评估eQTL的Replication,并探索先导eQTL变异在GTEx组织中的边缘意义 (P≤0.01, Bonferroni-adjusted)

Nature | 癌症中转录组变化的基因组基础 (1)_机器学习_05

  尽管大多数先导变异在GTEx样本中都能检测到 (3,532个eQTL变异中有3,110个),但我们鉴定出了422个 (~8.4%)与GTEx组织不对应的eQTL,这提示了存在癌症特异性调控 (Extended Data Fig. 4, Supplementary Table 3)。相应的eQTL先导变异富集于异染色质区 (Heterochromatic region) (图1a)。总的来说,这一分析揭示了基因表达调控的胚系框架 (Germline framework)在癌症组织中很大程度上是保守的。

Nature | 癌症中转录组变化的基因组基础 (1)_java_06

Fig. 1 | 胚系及体细胞SNV与基因表达的关联

非编码区体细胞顺式eQTL

Somatic cis-eQTLs in non-coding regions

  先前的其它研究已经描述了癌症中的非编码突变,特别是在启动子区,及其对基因表达的调控作用。在这里,我们研究了整个基因组中,可能的细胞DNA变化,这些变化是基因表达变化的基础

Nature | 癌症中转录组变化的基因组基础 (1)_大数据_07

(横轴) Shared Aliquots (共享的整除数)

Extended Data Fig. 5 | 顺式突变体细胞负担 (Cis-mutational somatic burden)

  我们通过聚集 (Aggregating)基因附近 (侧翼)2 kb区间 (2-kb intervals adjacent to genes, flanking)的SNV,以及处在外显子、内含子中的SNV (Extended Data Figs. 2, 5, 6),来估计局部突变负荷 (Estimat local mutation burden)。

Nature | 癌症中转录组变化的基因组基础 (1)_机器学习_08

Nature | 癌症中转录组变化的基因组基础 (1)_大数据_09

Extended Data Fig. 6 | 按检测区域类型划分的体细胞突变率和负担频率 (Somatic mutation rate and burden frequency)

  接下来,我们分解 (Decomposed)了单个基因的表达变化,考虑了顺式基因中常见的突变负荷,以及顺式胚系变异和体细胞拷贝数改变 (SCNAs)。这表明SCNAs是表达变化的主要驱动因素 (17%),其次是基因侧翼区域的体细胞SNV (1.8%)和胚系变异 (1.3%) (图1b)。

  我们还测试了所有常见突变负荷和整个基因组的基因表达之间的关联。我们鉴定了649个具有体细胞eQTL (FDR≤5%)的基因 (Supplementary Table 5)。其中,11个关联结果位于相应eGene的内含子或外显子,包括在特定癌症发病机制中已知存在作用的基因,如卵巢癌中的CDK12和慢性淋巴细胞白血病中的IRF4 (Extended Data Figs. 7, 8)

  大多数eQTL (68.4%)与侧边非编码突变负荷相关 (Extended Data Fig. 6e)。

Nature | 癌症中转录组变化的基因组基础 (1)_机器学习_10

Nature | 癌症中转录组变化的基因组基础 (1)_人工智能_11

Extended Data Fig. 7 | 与遗传先导负荷 (Genic lead burden)相关联的7个体细胞eGenes的曼哈顿图

Nature | 癌症中转录组变化的基因组基础 (1)_机器学习_12

Nature | 癌症中转录组变化的基因组基础 (1)_python_13

Extended Data Fig. 8 | 8个体细胞eGenes的散点图

  接下来,我们考虑了位于侧翼区域 (n = 556)的eQTLs,并测试了来自Epigenetics Roadmap的细胞类型特异性注释的富集。这确定了13个富集的注释突变 (FDR≤10%) (Extended Data Fig. 9, Supplementary Table 6),包括待发 (Poised)启动子,弱的和活跃的增强子,以及异染色质,但明显没有富集到转录因子结合位点 (Supplementary Table 7)。转录不活跃区域的富集可能是由于这些区域的突变率增加 (Extended Data Fig. 9),之前在癌症中有报道。

Nature | 癌症中转录组变化的基因组基础 (1)_大数据_14

Extended Data Fig. 9 | 表观基因组图谱 (Roadmap epigenome)标记与体细胞负荷重叠的侧翼间隔

  我们还研究了体细胞eGenes的功能特征,并观察到癌细胞testis基因的二价 (Bivalent)启动子中体细胞eQTLs的富集 (P = 0.04, Fisher’s exact test),如TEKT518 (Fig. 1c, Extended Data Fig. 8h)

  此外,我们发现了与细胞分化和发育过程相关的基因本体 (即GO)类别的整体 (Global)富集 (FDR≤10%) (Supplementary Table 8)。总体而言,体细胞eQTL分析发现,大多数非编码区域与局部基因表达的变化相关,与癌症特异性胚系eQTL类似,显示了转录非活性区域的富集,如异染色质。

未完 (约剩余80%的内容)