欢迎关注”生信修炼手册”!
GDC是Genomic Data Commons
的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括TCGA
在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享,网址如下
数据来源于以下多个大型癌症研究组织和项目
- Foundation Medicine(FM)
- Clinical Proteomic Tumor Analysis Consortium(CPTAC)
- THe Cancer Genome Atlas(TCGA)
- Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
- Human Cancer Model Initiative (HCMI)
以上只是部分来源信息,而且还在陆续更新,以后也会有新的来源数据整合到GDC
中。当然,到目前为止,该数据库中最大的数据依然是来自TCGA
的数据。
为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示
最高层级为program
,对应不同的数据来源,如TCGA
, TARGET
等;第二层为project
, 代表一系列患者对应的;第三层为case
,代表的是同一个患者的所有相关数据,包括SNV, CNV,基因表达谱等多种数据,需要注意的是case
和sample
是一对多的关系,一个患者可以取多份样本;最后一层是每个case
相关的数据,即Files
, 数据类型是多种多样的,包括序列,基因表达谱,SNV, CNV, 甲基化,临床信息等多种数据。
以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。数据库的首页提供了以下多个导航栏
1. project
可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示
primary site
表示样本对应的组织,program
表示数据来源,disease type
表示肿瘤类型,data category
表示数据类型,比如序列,SNV, CNV等等,experimental Strategy
表示实验类型,比如转录组,WGS, 甲基化芯片等。
表格形式的结果示意如下
第一列的project id由program加上肿瘤对应编码构成,肿瘤名称和编码的对应关系部分展示如下
点击project id可以查看summary信息,以TCGA-BRCA
为例,示意如下
2. Exploration
这部分支持从以下3个方面来查看和筛选数据
- Cases
- Genes
- Mutations
Cases相关的属性如下
Genes相关的属性如下
Mutations相关的属性如下所示
以Cases
为例,结果示意如下
点击第一列的case id,可以查看summary信息。除此之外,还提供了OncoGrid
功能,对top50个突变基因的SNV, CNV在top200个cases中的分布进行可视化,示意如下
3. Analysis
这部分对于筛选出的数据进行以下两种分析
- venn analysis
- survival analysis
结果示意如下
4. Repository
这部分包含了所有可用下载的数据,可以从Files
和Cases
两个方面来查看和筛选数据,Files
相关的属性如下
以Files
为例,结果示意如下
通过点击购物车图标,可以将筛选好的数据集加入到到购物车,然后进行下载。对于感兴趣的单个数据集,直接点击网页上的下载按钮就可以下载了,但是对于数据量较大的数据集,就需要通过官方提供的客户端软件来下载。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!