摘要

癌症基因组的变化强烈地影响着临床对治疗的反应和在许多情况下对药物作出反应的有效生物标志物。癌症药物敏感性基因组学(GDSC)数据库(www.cancerRxgene.org)是癌症细胞药物敏感性和药物反应分子标志物信息的最大的公共资源,无限制地免费提供数据。GDSC目前包含近75 000个实验的药物敏感性数据,描述了对近700种癌细胞系中138种抗癌药物的反应。为了鉴定药物反应的分子标记物,细胞系药物敏感性数据与从癌症数据库中的体细胞突变目录获得的大型基因组数据集合,包括关于癌症基因中的体细胞突变,基因扩增和缺失,组织类型和转录数据的信息。 GDSC数据的分析是通过一个门户网站,侧重基于特定抗癌药物或癌症基因的查询来鉴定药物敏感性的分子生物学标记。数据的图形表示贯穿于相关资源的链接,所有数据集都是完全可下载的。 GDSC提供了一个独一无二的资源,其中包含大量药物敏感性和基因组数据集,以促进癌症治疗新的治疗生物标志物的发现。

癌症药物敏感性基因组学数据库:GDSC_Java

△ 数据库首页截图


1 GDSC数据库基于三种类型的数据集


1、细胞系药物敏感性数据 Cell line drug sensitivity data

癌症细胞系药物敏感性数据是由Wellcome Trust Sanger研究所(WTSI)的癌症基因组计划和马萨诸塞州总医院分子治疗中心进行的高通量筛选,使用>1000个细胞系的集合产生的。选择用于筛选的化合物是包括靶向剂和细胞毒性化学治疗剂的抗癌治疗剂。它们由临床使用的批准药物、临床开发的药物、临床试验以及早期发育中的工具化合物组成。它们涵盖涉及癌症生物学的各种靶标和过程,包括受体酪氨酸激酶信号传导、细胞周期控制、DNA损伤反应和细胞骨架。化合物来自商业供应商或由学术界、生物技术和制药行业的合作者提供。在药物治疗72小时后,使用荧光基细胞活力测定法测定细胞毒性药物敏感性。剂量-反应曲线拟合超过九种药物浓度(2倍稀释系列)的荧光信号强度,以得出药物反应的多参数特征。在网站上展示的值包括半数最大抑菌浓度(IC50)、剂量-反应曲线的斜率和每个实验曲线下面积。

GDSC(2012年7月发行版)包括138种抗癌化合物的药物敏感性数据,以及每种药物的329-668个细胞系(mean=525 cell lines per drug)筛选,代表73 169个细胞系-药物相互作用。这是癌细胞药物敏感性最大的公共资源。


2、细胞系的基因组数据集 Genomic datasets for cell lines

可用于筛选的总数据集包括> 1000种不同的癌细胞系。这些被选为代表常规和罕见类型的上皮、间充质和造血起源的成人和儿童期癌症的谱。目前可用于每个细胞系的基因组数据集包括关于75个癌症基因中的体细胞突变的信息、基因组广泛的基因拷贝数扩增和缺失、七个基因重排的靶向筛选、微卫星不稳定标记、组织类型和转录数据。使用如下所述的各种统计方法,将基因组数据集与每个细胞系的药物敏感性数据一起用于鉴定药物反应的基因组生物标志物。GDSC内的组学数据集直接从“癌症体细胞突变目录”(COSMIC)数据库中获得和更新。


3、药物敏感性基因特征分析 Analysis of genomic features ofdrug sensitivity

GDSC数据库的一个重要组成部分是大规模基因组和药物敏感性数据集的系统整合。为了确定药物反应的基因组标记,目前使用两种补充分析方法。使用多变量方差分析(MANOVA)将药物敏感性(IC50值和剂量-反应曲线的斜率)与癌症中的基因组改变相关联,包括点突变、普通癌症基因的扩增和缺失、癌症基因重排和微卫星不稳定性。 MANOVA识别与药物敏感性相关的个体基因组特征、每个药物-基因关联的大小效应和统计学显着性。

我们还应用弹性网络回归法确定影响每种药物反应的多个相互作用的基因组特征。弹性网分析中使用的基因组数据包括MANOVA中使用的所有数据,并且还包含全基因组转录谱和组织类型。弹性网选择这些特征中的哪一个与药物反应相关联。

在“statistical analysis”选项卡的“Help & Documentation”网页上可以找到执行的不同统计分析的更详细的描述以及解释结果的指导。


1 查询GDSC数据库


为了方便数据解释,尽可能使用具有交互功能的图形表示。查询数据库主要基于主页“Browse ourdata”部分中的特定筛选“Compounds”或“CancerGenes”(图1)。 “Compounds”的浏览显示药物名称列表及其相关联的同义词、推定的治疗目标、每种药物筛选的细胞系数(样本量)和每种化合物最新数据更新的日期。提供了一个链接到化学结构的PUBCHEM数据库。通过点击特定药物名称,用户进入药物敏感性和基因组相关性数据的单独药物页面。

类似地,浏览“Cancer Genes”进入其HUGO名称识别的癌症基因的列表。该页面提供了基因的COSMIC页面和UniProt数据库的直接链接以获得更多的蛋白质信息。点击基因名称可以访问单个基因页面上的药物敏感性和基因组相关性数据。

也可以使用“Search”功能来查询数据库(图1)。“Search”框接受基于化合物(包括同义词)、癌基因或细胞系名称的查询。自动完成功能使用户能够快速选择其感兴趣的药物、基因或细胞系。搜索结果页面列出了与网站的详细药物/基因页面的链接的匹配化合物、癌基因或细胞系。在细胞系匹配的情况下,链接将提供COSMIC内的详细细胞系信息

癌症药物敏感性基因组学数据库:GDSC_Java_02

△ 图1 数据库Workflow


1 数据分析和可视化


筛选数据和基因组相关性通过特定的药物或基因页面进行访问(图2和3)。顶层提供药物或基因信息,并酌情连接到PUBCHEM、COSMIC和UniProt数据库。值得注意的是,顶部面板还提供了相关帮助页面的链接,以解释执行的数据和分析。所有页面顶部标题中的“Help & Documentation”链接也提供了其他信息。实际的筛选数据和分析显示在药物/基因页面的底部面板中,并分为以下标签:火山图、火山数据、弹性网(仅限药物页)、散点图和下载数据。火山图用于使用MANOVA计算药物敏感性数据与遗传事件的相关性。药物页面显示药物特异性火山图,其表示不同的基因组变化如何影响对特定药物的反应(图2)。该基因页面显示了一个基因特异性火山图,其表示突变的癌基因对所分析的所有药物的反应的影响(图3)。例如,BRAF抑制剂PLX4720的药物特异性火山图显示基因BRAF中的突变与对该化合物的敏感性显着相关(图2)。相反,BRAF的基因特异性火山图表明,该基因中的突变与多种药物(包括几种不同的BRAF抑制剂(即PLX4720,SB590885和AZ628))的敏感性相关(图3)。在这两种情况下,x轴代表drug-specific相互作用对跨屏细胞株IC 50值的影响程度,y轴是相互作用(P值)的重要性。通过悬停在每个圆圈上,提供以下信息:geneticevent样本大小(即用特定突变筛选的细胞系数)、效应大小和P值。通过点击单个圆圈,可以链接到该关联的细胞系IC50值的散点图(见下文)。火山数据选项卡将火山图数据表示为可排序表。表顶部的三个按钮允许以.csv,.tab或.xlsx文件格式下载表格。

癌症药物敏感性基因组学数据库:GDSC_Java_03

△ 图2

癌症药物敏感性基因组学数据库:GDSC_Java_04

△ 图3


类似地,弹性网络标签包含来自弹性网络分析药物敏感性的结果的图示(图4)。为了有效的可视化,显示与药物反应相关的最多10个显着特征。这些可能包括组织类型、癌症基因突变、表达水平和基因拷贝数。每个图形包含三个元素:显着特征(右侧)的效应大小的条形图、基因组特征(中心图)的热图和20个最不敏感和最敏感的细胞系(底部)的IC 50值的热图。例如,BRAF抑制剂PLX4720的弹性网分析鉴定了BRAF基因,组织型皮肤以及与药物敏感性相关的几种转录特征(BCL2A1,GYPC和DAAM2)的突变(图4)。与MANOVA分析不同,弹性网分析的基因特异性相关性未被表示,因为EN描述了多个基因如何同时影响药物敏感性。

癌症药物敏感性基因组学数据库:GDSC_Java_05

△ 图4


1 数据下载


由于网站的重点是数据的图形表示,所以火山和散点图都可以作为.png或.svg文件下载。此外,原始数据可以以.csv或.xlsx格式下载。如下所述,可以在其相关页面上下载特定药物或基因的数据,或者从一系列大型电子表格中下载我们所有分析中的数据。

在特定化合物的药物页面上,可用的下载量包括:

药物的敏感性数据(细胞系IC50值表);

细胞系中的基因组改变;

与MANOVA的基因组相关性;

药物敏感性的弹性网络分析。

在基因页面上,单个数据下载是可用的,其中包含与整个化合物组的基因如何与药物反应相关的MANOVA相关性。

药物敏感性和基因组数据集不是下载药物或基因特异性数据,还可以通过“Downloads”页面直接下载整体。这可以从每个页面的顶部直接访问。

可下载的文件包括:

细胞系组织类型,药物敏感性和用于MANOVA的基因组数据;

所有化合物的MANOVA结果;

组织特异性方差分析以检查组织类型对药物反应的影响;

所有化合物的弹性网结果;

用于弹性网分析的细胞系基因组和转录数据;

我们收集中不断更新的癌细胞系列表。

请注意,这些文件中的一些包含大量的列,如果在Excel 2003或更低版本中打开文件,则数据将丢失,因为工作表大小限制为256列。 “Downloads”页面还提供对先前数据发布的归档文件的访问。


参考文献:


Yang W, Soares J, Greninger P, et al. Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells. Nucleic Acids Research. 2013;41(Database issue):D955-D961. doi:10.1093/nar/gks1111.