r语言TCGA分组 r语言tcga数据整合

转载

mob64ca1407216b 2023-10-25 15:02:59

文章标签 r语言TCGA分组 r语言数据挖掘生信 TCGA 文章分类 R语言后端开发

`easyTCGA`：让初学者也能感受"征服"`TCGA`的喜悦

为什么要写这个R包

生信数据挖掘必不可少要学习TCGA数据库，但是对于新手，经常卡在第一步：下载和整理数据。第一步完成了，又会卡在第二步，第三步：差异分析，生存分析…

对于R语言大神来说都不是问题，非常简单的R语言操作而已。但是对于初学者很难理解。

这几步操作又是必不可少的，我自己也经常需要重新下载整理数据。为了简化这几个流程，同时也是让初学者也能感受到"征服"TCGA的喜悦，我把自己常用的一些代码打包，写个R包玩玩。

安装

首先安装依赖包：

# 安装bioconductor上面的R包
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
if(!require("BiocManager")) install.packages("BiocManager")
if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")
if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")
if(!require("DESeq2")) BiocManager::install("DESeq2")
if(!require("edgeR")) BiocManager::install("edgeR")
if(!require("limma")) BiocManager::install("limma")

# 安装cran上面的R包
if(!require("survival")) install.packages("survival")
if(!require("broom")) install.packages("broom")
if(!require("devtools")) install.packages("devtools")
if(!require("cli")) install.packages("cli")

再安装easyTCGA包：

devtools::install_github("ayueme/easyTCGA")

主要功能

1行代码实现1个常见分析！

getmrnaexpr

只需要提供正确的TCGA project名字即可；
自动下载并整理mRNA和lncRNA的counts，tpm，fpkm共6种表达矩阵，以及对应的临床信息，临床信息样本顺序和表达矩阵样本顺序完全一致，无需再次整理；
自动保存以上6种表达矩阵和临床信息到当前工作目录下的output_mRNA_lncRNA_expr文件夹下，并且同时保存rdata和csv两种文件格式；
下载的数据为最新数据，和GDC TCGA官网保持一致；
支持通过手动下载的TCGA数据进行自动整理并完成以上过程

getmrnaexpr_xena

用于XENA网站下载的基因表达数据和临床信息的整理（gdchub）
直接提供文件名即可，比如：TCGA-ACC.htseq_counts.tsv.gz，TCGA-ACC.GDC_phenotype.tsv.gz
自动保存mRNA、lncRNA表达矩阵和临床信息到当前工作目录下的output_mRNA_expr_xena文件夹下
（单独使用和GDC官方数据没有任何优势）

getmirnaexpr

只需要提供正确的TCGA project名字即可；
自动下载并整理miRNA的counts，rpm2种表达矩阵；
自动保存以上2种表达矩阵和对应的临床信息到当前工作目录下的output_miRNA_expr文件夹下，并且同时保存rdata和csv两种文件格式；
下载的数据为最新数据，和GDC TCGA官网保持一致

getsnvmaf

只需要提供正确的TCGA project名字即可；
自动下载并整理TCGA MAF文件(masked somatic mutation)以及对应的临床信息，并自动保存到当前工作目录下的output_snv文件夹下；
输出结果可以直接通过maftools::read_maf()函数读取，无需再次整理

diff_analysis

与getmrnaexpr和getmirnaexpr函数无缝对接，直接使用其输出结果即可（只支持counts矩阵），无需任何整理；
支持输入自己的表达矩阵和自定义分组；
自动通过3个R包进行差异分析：DESeq2, edgeR, limma；
输出结果默认为1个list，内含3种差异分析结果，支持保存rdata格式数据到本地

batch_survival

自动对大约20000个基因进行logrank检验和单因素cox分析，默认基于最佳截点（P值最小）；
与getmrnaexpr函数无缝对接，直接使用其输出结果即可，无需任何整理；
支持counts，tpm，fpkm3种格式的数据，如果是counts，则通过DESeq2::vst()进行转换，如果是tpm/fpkm，则进行log2(x + 0.1)转换；
支持打印基因序号到屏幕，方便定位有问题的基因