欢迎关注”生信修炼手册”!

TCGA全称如下

The Cancer Genome Atlas

是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和  National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。

目前共收录了33种癌症类型,超过了2个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。该数据库的网址如下

​https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga​

数据类型包括以下几种

  1. RNA sequencing
  2. MicroRNA sequencing
  3. DNA sequencing
  4. SNP-based platforms
  5. Array-based DNA methylation sequencing
  6. Reverse-phase array(RPPA)

涵盖了基因组,转录组,表观遗传,蛋白组等各个组学数据,提供了一个全方位,多维度的数据。 官方提供了对应的下载工具​​Genomic Data Commons Datga Portal​​​,  简称​​GDC​​, 网址如下

​https://portal.gdc.cancer.gov/​

TCGA数据库简介_数据

同时还有很多的第三方工具,比如

  1. cBioPortal
  2. ForeBrowse
  3. UCSC  Xena

官方的工具主要功能是查看和下载数据,只有非常简单的分析功能,而第三方工具则侧重于基于TCGA的数据进行分析。目前针对TCGA的数据,常用的分析包括以下几种

  1. 生存分析
  2. 肿瘤患者和正常人的差异分析
  3. 组学数据和临床数据的相关性

基于TCGA等公共数据库的挖掘是目前研究的一个热点,在文章中也经常会使用TCGA的数据来和自己实际的数据相互映证。了解和掌握TCGA数据的用法势在必行,在后续文章中会详细介绍。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

TCGA数据库简介_数据_02