导读

同更为成熟的基因组学、转录组学一样,基于质谱的蛋白质组学数据共享在科研实践中越来越常见。本文作者为我们强调了该领域这一空前的现状,为一些数据科学家带来了无限机遇。本文主要通过三个层面为我们阐述了这一观点,首先,对一些已有成果的细节进行阐述,如系统性再分析工作;其次,对已发表的蛋白质组学数据应用形式进行阐述,如基因蛋白质组学、谱图库及谱图档案的建立;最后,对现存的挑战进行阐述,同时也提到了首次尝试将蛋白质组学数据与其它组学数据进行联合分析的案例。

蛋白组学数据分析过程 蛋白质组学数据挖掘_数据

论文ID

原名:A Golden Age for Working with Public Proteomics Data

译名:蛋白质组学数据共享和再分析的黄金时间

期刊:Trends in Biochemical Sciences

IF:16.630

发表时间:2017年

通信作者: Lennart Martens

通信作者单位:Medical Biotechnology Center, VIB, Ghent,Belgium

蛋白组学数据分析过程 蛋白质组学数据挖掘_数据_02

蛋白组学数据分析过程 蛋白质组学数据挖掘_数据

综述内容

基于质谱的蛋白质组学公用数据库

        近几年,基于质谱的蛋白质组学研究技术得到了空前快速的发展。这些方法越来越多的被用于解决复杂的生物学问题,也常常与其它组学进行联用(如基因组学、转录组学、代谢组学)。蛋白质组学公用数据分享能被研究者共同接受为一种好的科研实践,这可以被认为是这一领域成熟的标志。这一重要观念的改变,一方面由科学杂志和基金资助机构的需求所触发;另一方面,也由支持数据共享的“用户友好”资源及工具变得可用所促进。

        第一批质谱蛋白质组学数据资源建立已超过10年,比较著名的有PeptideAtlas, GPMDB和PRIDE,同时这些数据库继续保持着世界领先水平。随着这些年的发展,其它的一些蛋白质组学数据资源陆续出现,遗憾的是,也陆续消失。然而,现在却是质谱蛋白质组学数据的黄金时代。许多优秀的数据资源陆续出现,如MassIVE, jPOST, the Human Proteome Map, ProteomicsDB,及Chorus。

        在2011年,一些在这 领域中最优秀的数据资源进行相互整合并正式合作。从而使得ProteomeXchange联盟可对数据的提交、发布进行了统一管理和约定。目前,PX成员包括PRIDE, PeptideAltas, MassIVE和jPOST。

        目前,大多数可用的公共数据库包含人类和一些主要模式生物的数据。当然,非模式生物的数据也在快速完善。在多个PX数据资源库中,已有超过900种不同分类特征生物的数据可用。

        正是由于这些发展成果,作者认为目前这一领域充满了机遇,特别是对于那些想从海量数据中挖掘新成果的研究者。

蛋白质组学数据再运用方法概述

        在蛋白质组学领域,数据形式及它们所对应的数据格式的数量十分庞大。蛋白质组学数据库最需要储存的两种数据类型是Raw文件(质谱下机数据)和Analyzed文件(用于定性和定量分析)。对于PX数据库,会同时提供两种数据形式。因此能够提供一些补充信息,并且支持不同形式的数据再利用。

   件     Raw文的可用性保证了数据集的全面再分析,而Analyzed文件可用于特定研究结果的可视化及评估分析。随着数据标准的不断发展,简化了科学家对公共蛋白质组学数据的使用。作者曾总结了4种公用数据的用途:(i)直接使用(ii)再利用(iii)再加工(iv)重新目的化。图1总结了主要的一些应用方向。

        数据直接利用的一个简单例子就是上面引用到的一些蛋白质组学数据资源和蛋白质成果库的信息连接,如Uniprot与neXtProt。这种方式的数据运用效果显著。

        数据再利用指的是公用数据不仅只与补充的成果数据进行关联,同时也会应用到新的实验中,并有潜质产生新结论。质谱谱图库和谱图档案的构建与利用即是一个明显例证。此外,一类数据形式的再利用,在其它组学研究中也常被用到。从大量相互联合的独立数据集中进行数据分析被称为Meta分析。采用该分析不能从任一独立的数据集中获得新的成果。虽然有一些经典案例,但这一类型的再利用仍较少。

        数据再加工,即由于蛋白质序列数据库的发展及准确度的提高,对公用数据的再分析能够对现有结果提出新的观点。这样的分析,同样也在其它组学研究中常被用到。虽然再加工能找到一些新的发现,但是实验目的可能与原实验相同或类似。资源数据库如PeptideAltas和GPMDB利用它们专用的生物信息学分析工具和流程,对很多数据集进行例行性再加工。来源于PeptideAltas的结果被组织为build,每个build或包含单一物种的蛋白质组数据(如人类、猪等),或包含亚蛋白质组(如人类血浆)。每个build是研究人员对PeptideAtlas数据库(或其他公用数据资源,如PRIDE)编译的MS/MS谱图信息进行再分析生成的。GPMDB数据再加工的方式类似。PeptideAtlas和GPMDB数据库都积极地为Human Proteome Project(HPP)服务,提供准则和由质谱检测到的人类蛋白的更新列表(每年更新)。

蛋白组学数据分析过程 蛋白质组学数据挖掘_数据_04

        

最后,数据的重新目的化包含所有与原实验不同的数据全新阐述及分析。蛋白质基因组分析和新的翻译后修饰位点的挖掘是这一应用两个比较显著的方向。当然,在开始对数据集进行重目的化前,需要先将数据集对“目的”的适用性进行评估。通过适合形式的质量控制可以完成这一过程。再后续的内容中,作者先探讨蛋白质组学数据的质控,接着探讨蛋白基因组学和翻译后修饰的案例。

蛋白质组学数据的质控(Quality Control)

        在任何分析流程中,QC是极其重要的。然而,相较于小分子化合物的质谱分析,蛋白质组学数据的QC却并没有发展很完善。公用数据的可用性支持着对数据的后验质控。理想状态下,所有储存于数据库中的数据应该与客观的质量指标对接,但因为最近才有适合的软件,这一过程才开始缓慢启动。目前,蛋白质组学资源库正在评估所提交数据的内部连贯性,检测明显的注释错误,确保技术性/生物学元数据的可接受程度。一些可免费使用的工具,如PRIDE inspector,能让该联盟的任何成员检测潜在的数据错误。

        当然,蛋白质资源库水平的QC指标计算只能被用作事后检验。更完美的状态是在实验室获取数据的同时运行QC指标检验,随后再与数据一起上传至数据库。

蛋白质基因组学

        在蛋白质基因组学研究领域,蛋白质组学数据通常与基因组学、转录组学数据进行结合分析,特别是采用DNA测序、RNA测序或Ribo测序等方式获得的数据。如果检测到的肽段与新的剪接点、长非编码RNA、小的开放阅读框等数据存在关联,基因组注释能被改进。

        蛋白基因组学极大的受益于公用数据集的可用性。一些研究已经发表了公用数据运用到人类、小鼠和大鼠蛋白质基因组学分析。此外,人类公用数据的完整纲要已经被重新分析,并为储存在LNCipedia中的人类LncRNAs提供注释存在的证据。最新的研究趋势在于利用公用数据结合Ribo-seq结果来确定小的开放阅读框。

        在本文作者看来,目前蛋白质基因组学分析存在的一个问题在于缺乏研究者和资源库之间的联系。研究者能够主导分析,资源库可以基于最新发现上传基因注释结果。不过目前,这一情况也在发生了改变。

翻译后修饰(PTM)相关研究

        蛋白质组学(包括基于质谱和抗体的方法)能够提供独特的方法检测和定位蛋白质翻译修饰位点。对于很多已知的PTM类型,磷酸化是目前研究最为透彻的。同时,磷酸化蛋白质组学的公开数据量庞大且还在不断增长。一些高品质的数据资源库,如PhosphoSitePlus,专注于编译不同来源的磷酸化相关信息,包括基于质谱的蛋白质组学数据。公用数据集也被重分析并用于获得PTM相关研究领域的新结论。

        糖基化在PTM中也很常见。对糖基化的分析,将有利于已有的蛋白质学数据资源和糖组学资源更紧密的联结。当然,目前这一领域的研究还未完全启动。

蛋白质组学数据集与其它组学数据集的整合

        目前,公用蛋白质组学数据与其它组学数据的联合分析变得越来越容易和有意义,使得数据科学家有了更多新的机会。

        蛋白基因组学最近被用于研究多种癌症,利用癌症特征肽段来进行诊断或治疗的目的。美国国家癌症研究所(NCI)下属的临床蛋白质组学肿瘤分析联盟(CPTAC)近期发布了许多不同肿瘤类型的有意义的研究,包括结直肠癌、乳腺癌和卵巢癌。这些数据全部被公开,并且在CPTAC数据门户网站上可用。在这里,蛋白质序列数据库是直接从肿瘤样品对应的外显子组序列中获得。

挑战

        蛋白质组学中,缺少实验和技术元数据是该组学数据被重利用面临的主要问题,这一问题已被多次强调。蛋白质组学资源数据库所需要的元数据,相较于其他组学同等数据库要少很多,从而导致蛋白质组学数据的注释具有更多问题。现阶段,所需元数据的数量和研究者数据分享意愿之间,需要达到某种平衡。蛋白质组学数据在最近才开始兴起了分享浪潮,所以目前最主要的工作还是在于怎样促使数据分享更为便利。

        在不远的将来,蛋白质组学数据研究者们面临的一大挑战是人类临床蛋白质组学数据获得的受限,这在目前的基因组和转录组数据集中很常见。像European Genotyoe Archive(EGA)和dbGaP这些数据库,存在资源访问控制,但研究者也需要去使用。

未来前景和现状

        总体来讲,研究质谱-蛋白质组学领域的数据科学家具有一个比较光明的未来。遗憾地是,“研究寄生虫”(research parasites)这一词组最近被广为流传。“研究寄生虫”指的是那些只以别人发表的可用数据进行分析的人。本文作者认为这一词组有失偏颇。其一,生成数据的科学家应该一开始就会被公认,并被给予适当识别和引用。虽然总会有研究者资源引用不充分,但这一现象并不只在“公用数据再利用”这一领域存在,不应该停止公用数据库的分享。其二,若发起人在数据上传时还未完成数据的全部分析,那么也很难将再利用者分析数据且进一步优化数据价值的行为称为“寄生”,特别是还采用了一些创新算法的时候。任何成熟的研究领域应该欢迎从已有数据中找到新的观点和结论的做法。