TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。但是,如果你是刚入门的新手,不用担心,跟着我们的系列推文,完成TCGA数据库的认识与下载,开启TCGA数据库的大门。今天我们就来学习一下TCGA数据库中癌症的RNAseq数据下载。

1.TCGA数据库简介

TCGA数据库全称为The Cancer Genome Atlas,如名所示,它主要储存关于各类肿瘤的一个基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,它是目前为止我们可以获得的公开数据库里面数据相对全面的一个,在各个领域得到了广泛的应用,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。

2.TCGA网址

https://portal.gdc.cancer.gov/

首页模样如下:


tcga数据库R数据分析 tcga数据库简介_数据


3. 点击 Repository,进入数据存储地,就会出现下面这个界面


tcga数据库R数据分析 tcga数据库简介_tcga数据下载_02


4. 点击 Case,选择疾病类型,就会出现下面这个界面,用于挑选各类癌症,比如我们选择喉癌(Larynx),在其前面打钩即可。


tcga数据库R数据分析 tcga数据库简介_数据_03


tcga数据库R数据分析 tcga数据库简介_下载文件_04


5.接着点击 File,选择文件类型,就会出现下面这个界面,用于选择需要下载文件的数据类型,因为我们需要下载的是RNAseq的数据,所以需要在Transcriptome Profiling,在其前面打钩即可。


tcga数据库R数据分析 tcga数据库简介_下载文件_05


6.在Data Type选择Gene Expression Quantification,在Experimental Strategy上由于只有一个选项,所以我们不用选择也可以,主要看到有三种类型,分别是counts,FPKM和FPKM-UQ,分别表示counts数和两种归一化后的值,一般推荐下载counts数据。


tcga数据库R数据分析 tcga数据库简介_下载文件_06


7. 点击counts之后,我们可以看到每一步操作都会记录在里面,如下,也可以看到数据大小是31兆。


tcga数据库R数据分析 tcga数据库简介_tcga数据下载_07


8. 点击Add All Files to Cart,然后就会看到箭头所指的地方,变为相应的样本数,接着点击cart,如下:


tcga数据库R数据分析 tcga数据库简介_tcga数据下载_08


tcga数据库R数据分析 tcga数据库简介_数据库_09


9. 点击download,下载cart即可


tcga数据库R数据分析 tcga数据库简介_数据库_10


这样你就完成了第一步基于网页版tcga数据的下载。

10.下载的数据模样


tcga数据库R数据分析 tcga数据库简介_tcga数据下载_11


下载的结果是一个压缩包,我们解压之后就会发现,每个文件存储的为一个样本。


tcga数据库R数据分析 tcga数据库简介_下载文件_12


OK,今天的数据下载先讲到这,下期再见。