导读

从本文开始,将带领还未分析过单细胞(scRNA-seq)数据的读者,从如何构建环境,什么是单细胞,单细胞的完整分析流程各方面开展学习,由于内容较多,将会分章节展开,后续会整理成完整PDF教程。

1. 作用

单细胞的作用:

在人体组织中有着令人难以置信的细胞类型、状态和相互作用的多样性。为了更好地了解这些组织和存在的细胞类型,scRNA-seq 提供了在单个细胞水平上研究表达情况的可能。

python做单细胞分析的包_数据分析

scRNA-seq 可以用来:

  • 探索组织中存在哪些细胞类型
  • 识别未知/稀有细胞类型或状态
  • 阐明分化过程中或跨时间或跨状态的基因表达变化
  • 鉴定特定细胞类型在不同条件(例如治疗或疾病)之间下差异表达的基因
  • 结合空间、调控和蛋白质信息,探索细胞类型之间的表达变化

一些常见的研究方法:

python做单细胞分析的包_python做单细胞分析的包_02

2. 挑战

单细胞分析过程中存在的挑战:

scRNA-seq 之前,使用 bulk RNA-seq 进行转录组分析,这是一种比较细胞表达平均值的方法。如果查看比较转录组学(例如来自不同物种的相同组织的样本),以及在疾病研究中量化表达特征,这种方法可能是一个不错的选择。如果不期望或不关心样本中的细胞异质性,它还具有发现疾病生物标志物的潜力。

虽然 bulk RNA-seq 可以探索不同条件(例如治疗或疾病)之间基因表达的差异,但细胞水平的差异并没有被充分获取。例如,在下图中,如果批量分析(左),将无法检测到基因 A 和基因 B 表达之间的正确关联。但是,如果按细胞类型或细胞状态正确地对细胞进行分组,可以看到基因之间的正确相关性。

python做单细胞分析的包_python做单细胞分析的包_03

尽管 scRNA-seq 能够捕获细胞水平的表达,但样本生成和文库制备成本更高,分析更加复杂且难以解释。

scRNA-seq 数据分析的复杂性包括:

  1. 数据量大

来自 scRNA-seq 实验的表达数据代表了数千个细胞的数万或数十万reads数。数据量要大得多,需要更多的内存来分析,更大的存储需求,以及更多的时间来运行分析。

  1. 每个细胞的测序深度低

对于基于液滴的 scRNA-seq 方法,测序深度较浅,通常每个细胞仅检测到10-50% 。这导致细胞中许多基因的计数为零。然而,在一个特定的细胞中,一个基因的计数为零可能意味着该基因没有被表达,或者只是没有检测到转录物。在整个细胞中,具有较高表达水平的基因往往具有较少的零。并且细胞之间的基因表达高度可变,由于这一特性,许多基因在任何细胞中都不会被检测到。

  1. 跨细胞/样品的生物不可控性

biological variation可能导致细胞之间的基因表达与实际的生物细胞类型/状态更相似或不同,这可能会掩盖细胞类型的身份。biological variation的来源(除非是实验研究的一部分)包括:

  • Transcriptional bursting:并非所有基因都在持续转录。Time of harvest将决定每个细胞中基因是表达还是沉默。
  • Varying rates of RNA processing:不同的 RNA 以不同的速率加工。
  • Continuous or discrete cell identitiesContinuous phenotypes在基因表达中是可变的,将Continuous phenotypesdiscrete phenotypes分开有时可能很困难。
  • Environmental stimuli:细胞的局部环境可以根据空间位置、信号分子等影响基因表达。
  • Temporal changes:不断变化的细胞过程,例如细胞周期,会影响单个细胞的基因表达谱。

python做单细胞分析的包_ci_04

  1. 跨细胞/样品的技术不可控性

这可能会导致细胞之间的基因表达基于技术来源而不是生物细胞类型或状态更加相似或不同,并且可能会掩盖细胞类型的身份。主要来源包括:

  • Cell-specific capture efficiency:不同的细胞会捕获不同数量的转录物,从而导致测序深度的差异(例如 10-50% 的转录组)。
  • Library quality:降解的 RNA、低活力或垂死的细胞、大量自由漂浮的 RNA、解离不良的细胞以及细胞定量不准确会导致质量低下。
  • Amplification bias:在文库制备的扩增步骤中,并非所有转录本都被扩增到相同水平。
  • Batch effects:批次效应是 scRNA-Seq 分析的一个重要问题,因为仅由于批次效应就能导致显著的差异。

python做单细胞分析的包_ci_05

3. 批次效应

如何确定是否存在批次效应?

  1. 是否所有 RNA 提取都在同一天进行?
  2. 是否所有的文库制备工作都是在同一天进行的吗?
  3. 是否由同一个人对所有样品进行 RNA 提取与文库制备?
  4. 是否对所有样品使用相同的试剂?
  5. 是否在同一地点进行了 RNA 提取与文库制备?

如果有任何一个答案是“否”,那么就存在批次效应。

关于去除批次效应的最佳方案:

  • 如果可能,以避免批次效应的方式设计实验
  • 如果无法避免批次效应:
  1. 不要按批次混淆实验:

python做单细胞分析的包_数据_06

  1. 跨批次拆分不同样品组的重复。如果跨条件进行差异基因分析或在总体水平上得出结论,则重复越多越好(肯定超过 2 个)。如果使用一次制备一个文库的 inDrops,请交替使用样品组(例如,不要先准备所有对照文库,然后再准备所有处理文库)。
  2. python做单细胞分析的包_数据_07

  3. 请务必在实验原始数据中包含批次信息。在分析过程中,可以对因批次引起的变化或进行跨批次整合,因此如果有这些信息,它不会影响结果。

4. 结论

虽然 scRNA-seq 是一种功能强大且富有洞察力的方法,用于以单细胞分辨率分析基因表达,但存在许多挑战和变异来源,可能使数据分析变得复杂或有限。在对 scRNA-seq 数据的整个分析过程中,将尝试解释或调整由于数据中无意义的变化的各种来源而导致的变化。

  • single-nucleus RNA-seq (snRNA-seq)single-cell RNA-seq

snRNA-seq 分析来自细胞核而不是完整细胞的表达谱。与完整细胞(约 11,000 个基因)相比,从细胞核(约 7,000 个基因)中检测到的转录物更少。在某些情况下,相比 scRNA-seqsnRNA-seq 可能是首选方法。

snRNA-seq 的一些优点:

  • 适用于难以分离的样本(例如脂肪细胞)以及冷冻组织
  • 减少分离过程中的transcriptional artifacts
  • 提供较少偏向的cellular coverage