欢迎关注”生信修炼手册”!

GDC是​​Genomic Data Commons​​​的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括​​TCGA​​在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享,网址如下

​https://portal.gdc.cancer.gov/​

数据来源于以下多个大型癌症研究组织和项目

  1. Foundation Medicine(FM)
  2. Clinical Proteomic Tumor Analysis Consortium(CPTAC)
  3. THe Cancer Genome Atlas(TCGA)
  4. Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
  5. Human Cancer Model Initiative (HCMI)

以上只是部分来源信息,而且还在陆续更新,以后也会有新的来源数据整合到​​GDC​​​中。当然,到目前为止,该数据库中最大的数据依然是来自​​TCGA​​的数据。

为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示

使用GDC在线查看TCGA数据_数据库

最高层级为​​program​​​,对应不同的数据来源,如​​TCGA​​​, ​​TARGET​​​等;第二层为​​project​​​, 代表一系列患者对应的;第三层为​​case​​​,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是​​case​​​和​​sample​​​是一对多的关系,一个患者可以取多份样本;最后一层是每个​​case​​​相关的数据,即​​Files​​, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。

以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。数据库的首页提供了以下多个导航栏

1. project

可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示

使用GDC在线查看TCGA数据_数据库_02

​primary site​​​表示样本对应的组织,​​program​​​表示数据来源,​​disease type​​​表示肿瘤类型,​​data category​​​表示数据类型,比如序列,SNV, CNV等等,​​experimental Strategy​​表示实验类型,比如转录组,WGS, 甲基化芯片等。

表格形式的结果示意如下

使用GDC在线查看TCGA数据_数据_03

第一列的project id由program加上肿瘤对应编码构成,肿瘤名称和编码的对应关系部分展示如下

使用GDC在线查看TCGA数据_数据库_04

点击project id可以查看summary信息,以​​TCGA-BRCA​​为例,示意如下

使用GDC在线查看TCGA数据_数据类型_05

2.  Exploration

这部分支持从以下3个方面来查看和筛选数据

  1. Cases
  2. Genes
  3. Mutations

Cases相关的属性如下

使用GDC在线查看TCGA数据_数据_06

Genes相关的属性如下

使用GDC在线查看TCGA数据_数据类型_07

Mutations相关的属性如下所示

使用GDC在线查看TCGA数据_数据_08

以​​Cases​​为例,结果示意如下

使用GDC在线查看TCGA数据_数据类型_09

点击第一列的case id,可以查看summary信息。除此之外,还提供了​​OncoGrid​​功能,对top50个突变基因的SNV, CNV在top200个cases中的分布进行可视化,示意如下

使用GDC在线查看TCGA数据_数据库_10

3. Analysis

这部分对于筛选出的数据进行以下两种分析

  1. venn analysis
  2. survival analysis

结果示意如下

使用GDC在线查看TCGA数据_数据类型_11

使用GDC在线查看TCGA数据_数据库_12

4. Repository

这部分包含了所有可用下载的数据,可以从​​Files​​​和​​Cases​​​两个方面来查看和筛选数据,​​Files​​相关的属性如下

使用GDC在线查看TCGA数据_数据_13

以​​Files​​为例,结果示意如下

使用GDC在线查看TCGA数据_数据类型_14

通过点击购物车图标,可以将筛选好的数据集加入到到购物车,然后进行下载。对于感兴趣的单个数据集,直接点击网页上的下载按钮就可以下载了,但是对于数据量较大的数据集,就需要通过官方提供的客户端软件来下载。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

使用GDC在线查看TCGA数据_数据类型_15