摘要

在生物医学研究中,多组学实验越来越普遍,为实验设计,数据整合和分析增加了复杂性。 R和Bioconductor为统计分析和可视化提供了一个通用框架,为各种高通量数据类型提供了专门的数据类,但缺乏对多组学实验进行整合分析的方法。今天,就向大家介绍一个多组学实验的整合软件,MultiAssayExperiment,该软件包在R中实现,利用Bioconductor软件和设计原则,为多种多样的基因组数据提供一致的表示,存储和操作。TCGA中的每个癌症组织的多种“组学数据”,作为现成的MultiAssayExperiment分析对象,并在这些数据集和其他数据集中演示软件如何简化数据表示,统计分析和可视化。MultiAssayExperiment Bioconductor软件包减少了对高效,可扩展和可复制的多组学数据进行统计分析的主要障碍,并增强了多个组学数据集的数据科学应用。


1 材料和方法


MultiAssayExperiment(https://bioconductor.org/packages/MultiAssayExperiment)引入了一个Bioconductor面向对象的S4类,定义了用于表示多组学实验的通用数据结构。它有三个关键组成部分:

(i)colData,一个包含患者或细胞系水平的特征(如病理学和组织学)的“主要”数据集;

(ii)ExperimentList,补充实验的结果列表;

(iii)sampleMap,一张关联这些元素的图谱。

ExperimentList数据元素可以是任何具有用于基本子集化(单个方括号“[”)和维名称,大小[“dimnames()”和“dim()”]的标准方法的数据类。可用于操作MultiAssayExperiment数据类的关键方法包括:

(1)构造函数和相关的有效性检查,简化创建MultiAssayExperiment对象,同时允许灵活地表示复杂的实验。

(2)允许通过基因组标识符或范围,临床/病理变量,可用的完整数据(不包含缺失值的子集)和特定实验进行数据选择的子集操作。

(3)MultiAssayExperiment组件的可靠和直观的提取和替换操作。

MultiAssayExperiment API尽可能基于SummarizedExperiment,同时支持异质性的多组学实验。

Bioconductor中的一个多组学实验整合软件_Java


1 结果


MultiAssayExperiment类和方法提供了一个灵活的框架,用于整合和分析重叠样本的互补分析。它集成了任何支持基本子集和维度名称的数据类,因此默认情况下支持许多数据类,而不需要额外的调整。 MultiAssayExperiment类确保了实验和患者的正确对应,提供样本和特征的协调子集,同时保持正确对应,并且使数据类型能够简单地整合成现有工具可以分析的格式。基本用法在视频(https://www.youtube.com/watch?v = w6HWAHaDpyk&feature = youtu.be)中以及随附的快速入门中有讲述。

将来自TCGA的33种不同癌症类型的超过11000位患者的300多个实验结果作为每种癌症类型的一个MultiAssayExperiment。这些数据对象将每个实验结果连接到他们的起源患者,允许更直接地选择具有用于所关注实验的完整数据的病例,以及跨实验和临床数据之间的数据整合。文章展示了MultiAssayExperiment的应用,用于可视化肾上腺皮质癌患者的检测重叠,证实最近报道的结直肠癌和乳腺癌中体细胞突变和拷贝数负荷之间的相关性。使用千人基因组计划的tabix-indexed VCF文件,确定SNP /甲基化数量性状基因座。在NCI-60细胞系中计算拷贝数,基因表达和蛋白表达之间的相关性。为了演示MultiAssayExperiment提供的简单而强大的灵活性,给出了代码块和完全可重现的脚本。

Bioconductor中的一个多组学实验整合软件_Java_02


总结:

MultiAssayExperiment能够协调管理和提取复杂的多重分析实验和临床数据,与单个实验一样易于进行用户级编码。其可扩展设计支持任何符合基本要求的实验数据类别。未来的工作将侧重于使用MultiAssayExperiment作为基础的更高级别的可视化,集成和分析工具。这个项目将获得长期支持,作为Bioconductor中多重数据表示和分析的必要元素。


参考文献:


Ramos, M., et al., Software for the Integration of MultiomicsExperiments in Bioconductor. Cancer Res, 2017. 77(21): p. e39-e42.



往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 BS-Seq  | 隐马模型 | Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵

精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)