chatgpt和数据库结合 tcga数据库geo数据库不同

转载

mob64ca13f6035c 2024-06-18 04:02:29

文章标签 chatgpt和数据库结合 r语言数据 hg ci 文章分类 深度学习人工智能

TCGA是什么
TCGA：The Cancer Genome Atlas Program，癌症基因组图谱计划。

TCGA存储了哪些信息

临床样本信息：Biospecimen Clinical
测序数据：RNA sequencing MicroRNA sequencing DNA sequencing SNP-based platforms Array-based DNA methylation sequencing Reverse-phase array
可以说包括了基因组、转录组、表观遗传、蛋白质组等各个组学的数据。

并不是所有数据都可以下载。测序数据分为四层：level1、level2、level3、level4，其中level3和level4都是开放下载的，level1是最原始的数据，level2是做了进一步处理的，这些数据一般是不开放的，需要申请才能下载。

数据下载

原理查看这篇文章：
TCGA数据库初次了解

gdc-client方法参考：

如何批量下载TCGA里的数据(gdc-client方法)TCGA数据库-肿瘤基因组图谱

利用R包TCGAbiolinks进行各种数据下载

TCGAbiolinks下载数据的优点：具备一体化的下载整合，无需再用复杂的方法对下载的单个数据重新进行整合，他的数据是合并了的。
参考：
TCGA3.R包TCGAbiolionks下载数据利用R包TCGAbioloinks进行各种数据下载 TCGA数据库下载：多种方法及优缺点介绍

TCGA数据下载–TCGAbiolinks包参数详解

此处跟学生信技能树的笔记，下载的是肝脏肝细胞癌(LIHC)的count值，下载数据最主要用到的函数是GDCquery()，其共有十一个参数：

project：指的是癌症的各个项目id，下面的命令可以得到TCGA里的全部id编号，各个代表的含义参考文末文章；
TCGAbiolinks:::getGDCprojects()$project_id)
data.category：指的是数据类型，共有七种；
case_count为病人数，file_count为对应的文件数。

TCGAbiolinks:::getProjectSummary(project)

TCGAbiolinks:::getProjectSummary(TCGA-HNSC)
data_category
1       Copy Number Variation
2            Sequencing Reads
3 Simple Nucleotide Variation
4             DNA Methylation
5                    Clinical
6     Transcriptome Profiling
7                 Biospecimen
8          Proteome Profiling
9        Structural Variation

data.type：筛选要下载的文件类型；

#下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

workflow.type：不同的数据类型，有其对应的参数可以选择；

HTSeq - FPKM-UQ：FPKM上四分位数标准化值
HTSeq - FPKM：FPKM值/表达量值
HTSeq - Counts：原始count数

但现在已经更新了，只有STAR - Counts这个参数

cancer_type="TCGA-HNSC"
data_type <- "Gene Expression Quantification" 
data_category <- "Transcriptome Profiling" 
workflow_type <- "STAR - Counts"
query_TranscriptomeCounts <- GDCquery(project = cancer_type,
                                      data.category = "Transcriptome Profiling",
                                      data.type = "Gene Expression Quantification",
                                      workflow.type = "STAR - Counts")

legacy=FALSE

这个参数主要是因为TCGA数据有两个入口可以下载，GDC Legacy Archive 和 GDC Data Portal，区别主要是注释参考基因组版本不同分别是：GDC Legacy Archive（hg19和GDC Data Portal(hg38)。参数默认为FALSE，下载GDC Data Portal(hg38）。这里小编的建议是，下载转录组层面的数据使用hg38，下载DNA层面的数据使用hg19，因为比如做SNP分析的时候很多数据库没有hg38版本的数据，都是hg19的。

access：数据开放和不开放；
platform：这里涉及到的平台种类非常多，可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。
file.type：主要是在GDC Legacy Archive下载数据的时候使用；
barcode：设置此参数就只下载某一个样本；
experimental.strategy：下载路口；
GDC Data Portal：WXS, RNA-Seq, miRNA-Seq, Genotyping Array；
Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq；
sample.type：可以对样本进行过滤下载。

实操代码：

#1.安装TCGAbiolinks包


options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)

#2.选定要下载的cancer类型

#全部癌症英文缩写 这里跟教程选择一样的HNSC头颈癌

TCGAbiolinks::getGDCprojects()$project_id
cancer_type="TCGA-HNSC"

#3.选择下载你想要的数据

#此处下载的clinical临床实验数据 一行是一个病例 列是病人的相关信息

clinical <- GDCquery_clinic(project = cancer_type,type ="clinical")
save(clinical,file="BRCA_clinical.Rdata")
write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv")


#4.下载实验相关数据:RNA-seq的count数据

library(dplyr)
library(DT)
library(SummarizedExperiment)

#数据类型为基因定量表达
#数据类别为转录组

data_type <- "Gene Expression Quantification" 
data_category <- "Transcriptome Profiling" 
workflow_type <- "STAR - Counts"
query_TranscriptomeCounts <- GDCquery(project = cancer_type,
                                      data.category = "Transcriptome Profiling",
                                      data.type = "Gene Expression Quantification",
                                      workflow.type = "STAR - Counts")

#将上一步搜索得到的结果下载下来 自带存储到所设置目录下的文件夹

GDCdownload(query_TranscriptomeCounts,method = "api")

#将搜索得到的数据转换为适用于R的形式(a summarizeExperiment or a data.frame) 行名为基因 列名为样本名 

expdat <- GDCprepare(query = query_TranscriptomeCounts)

count_matrix=assay(expdat)

write.csv(count_matrix,file = "TCGAbiolinks_HNSC_COUNTA.CSV")


#5.下载实验相关数据：RNA-seq的FPKM数据

Expr_df <- GDCquery(project = cancer_type,
                                      data.category = data_category,
                                      data.type = data_type,
                                      workflow.type = "HTSeq - FPKM")

GDCdownload(Expr_df,method = "api",files.per.chunk = 100)

expdat_2 <- GDCprepare(query = Expr_df)
Expr_matrix=assay(expdat_2)
write.csv(Expr_matrix,file="TCGAbiolinks_HNSC_FPKM.csv")

参考文章：
TCGA / 癌症简称 / 缩写 / TCGA癌症中英文对照 TCGA数据下载—TCGAbiolinks包参数详解

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。