python做单细胞分析的包

转载

mob64ca14017c37 2024-10-29 06:20:59

文章标签 python做单细胞分析的包数据分析数据 ci 文章分类 Python 后端开发

导读

从本文开始，将带领还未分析过单细胞(scRNA-seq)数据的读者，从如何构建环境，什么是单细胞，单细胞的完整分析流程各方面开展学习，由于内容较多，将会分章节展开，后续会整理成完整PDF教程。

1. 作用

单细胞的作用：

在人体组织中有着令人难以置信的细胞类型、状态和相互作用的多样性。为了更好地了解这些组织和存在的细胞类型，scRNA-seq 提供了在单个细胞水平上研究表达情况的可能。

python做单细胞分析的包_数据分析

scRNA-seq 可以用来：

探索组织中存在哪些细胞类型
识别未知/稀有细胞类型或状态
阐明分化过程中或跨时间或跨状态的基因表达变化
鉴定特定细胞类型在不同条件（例如治疗或疾病）之间下差异表达的基因
结合空间、调控和蛋白质信息，探索细胞类型之间的表达变化

一些常见的研究方法：

python做单细胞分析的包_python做单细胞分析的包_02

2. 挑战

单细胞分析过程中存在的挑战：

在 scRNA-seq 之前，使用 bulk RNA-seq 进行转录组分析，这是一种比较细胞表达平均值的方法。如果查看比较转录组学（例如来自不同物种的相同组织的样本），以及在疾病研究中量化表达特征，这种方法可能是一个不错的选择。如果不期望或不关心样本中的细胞异质性，它还具有发现疾病生物标志物的潜力。

虽然 bulk RNA-seq 可以探索不同条件（例如治疗或疾病）之间基因表达的差异，但细胞水平的差异并没有被充分获取。例如，在下图中，如果批量分析（左），将无法检测到基因 A 和基因 B 表达之间的正确关联。但是，如果按细胞类型或细胞状态正确地对细胞进行分组，可以看到基因之间的正确相关性。

python做单细胞分析的包_python做单细胞分析的包_03

尽管 scRNA-seq 能够捕获细胞水平的表达，但样本生成和文库制备成本更高，分析更加复杂且难以解释。

scRNA-seq 数据分析的复杂性包括：

数据量大

来自 scRNA-seq 实验的表达数据代表了数千个细胞的数万或数十万reads数。数据量要大得多，需要更多的内存来分析，更大的存储需求，以及更多的时间来运行分析。

每个细胞的测序深度低

对于基于液滴的 scRNA-seq 方法，测序深度较浅，通常每个细胞仅检测到10-50% 。这导致细胞中许多基因的计数为零。然而，在一个特定的细胞中，一个基因的计数为零可能意味着该基因没有被表达，或者只是没有检测到转录物。在整个细胞中，具有较高表达水平的基因往往具有较少的零。并且细胞之间的基因表达高度可变，由于这一特性，许多基因在任何细胞中都不会被检测到。

跨细胞/样品的生物不可控性

biological variation可能导致细胞之间的基因表达与实际的生物细胞类型/状态更相似或不同，这可能会掩盖细胞类型的身份。biological variation的来源（除非是实验研究的一部分）包括：

Transcriptional bursting：并非所有基因都在持续转录。Time of harvest将决定每个细胞中基因是表达还是沉默。
Varying rates of RNA processing：不同的 RNA 以不同的速率加工。
Continuous or discrete cell identities：Continuous phenotypes在基因表达中是可变的，将Continuous phenotypes与discrete phenotypes分开有时可能很困难。
Environmental stimuli：细胞的局部环境可以根据空间位置、信号分子等影响基因表达。
Temporal changes：不断变化的细胞过程，例如细胞周期，会影响单个细胞的基因表达谱。

python做单细胞分析的包_ci_04

跨细胞/样品的技术不可控性

这可能会导致细胞之间的基因表达基于技术来源而不是生物细胞类型或状态更加相似或不同，并且可能会掩盖细胞类型的身份。主要来源包括：

Cell-specific capture efficiency：不同的细胞会捕获不同数量的转录物，从而导致测序深度的差异（例如 10-50% 的转录组）。
Library quality：降解的 RNA、低活力或垂死的细胞、大量自由漂浮的 RNA、解离不良的细胞以及细胞定量不准确会导致质量低下。
Amplification bias：在文库制备的扩增步骤中，并非所有转录本都被扩增到相同水平。
Batch effects：批次效应是 scRNA-Seq 分析的一个重要问题，因为仅由于批次效应就能导致显著的差异。

python做单细胞分析的包_ci_05