Abstract

单细胞RNA-seq使研究者能够以前所未有的分辨率研究基因表达图谱。这一潜力吸引着更多科研工作者应用单细胞分析技术解决研究问题。随着可用的分析工具越来越多,如何组合成一个最新最好的数据分析流程也越来越难。我们详细阐述了一个典型的单细胞转录组分析各个步骤的细节和注意事项,包括预处理(质控、标准化、数据校正、特征选择、降维)和细胞/基因水平的下游分析等。基于独立的比较研究,我们为每一步都推荐了当前最好的方法和操作建议。随后把这些最好的工具整合成一个分析流程并应用于一套公共数据集的分析以演示其效果。案例研究具体可见https://www.github.com/theislab/single-cell-tutorial。这篇综述为这个领域的新人提供了一份学习单细胞分析的指南,并且也能帮助老用户更新他们的分析流程。

背景

近年来,单细胞RNA测序(scRNA-seq)大大提高了我们对生物系统的了解。我们已经能够在研究斑马鱼、青蛙和涡虫zebrafish, frogs and planaria)等生物细胞异质性的同时发现先前未知的细胞群体。这项技术的巨大潜力激励了计算生物学家开发了一系列分析工具。尽管开发者为了确保单个工具的可用性付出了巨大的努力,但是由于该领域的相对不成熟,对于单细胞数据分析的新手来说,入门的障碍是缺少一份标准指南。在本文中,我们提供了一份scRNA-seq分析的参考教程,并概述了当前的最佳实践方案,为将来的分析标准化奠定了基础。

分析标准化面临的挑战来源于越来越多的可用分析方法(截至2019年3月7日有385种工具)和数据集规模爆炸性的提高。使得我们一直在寻找新的方法来分析处理我们的数据。例如,最近已经有方法可以预测细胞分化过程中的命运选择。尽管分析工具的不断改进有助于产生新的科学推论,但它也使分析流程的标准化变得更为复杂。

标准化的另一个挑战在于软件技术方面。用于scRNA-seq数据的分析工具是用不同的编程语言编写的 - 最主要的是RPython。尽管跨编程语言的支持越来越多,但使用的编程语言确实影响了对分析工具的选择。诸如SeuratScaterScanpy等常用工具提供了集成环境来开发流程并包含大量分析工具。然而,出于维护的需要, 这些平台限制了它们只能使用各自的编程语言开发的工具。