哈佛大学单细胞课程|笔记汇总（一）

原创

wx643df9f1afa1d 2023-05-02 23:02:56 ©著作权

文章标签 人工智能编程语言 java 大数据 html 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者wx643df9f1afa1d的原创作品，请联系作者获取转载授权，否则将追究法律责任

生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析（Nature重磅综述|关于RNA-seq你想知道的全在这）、ChIP-seq分析（ChIP-seq基本分析流程）、单细胞测序分析 (重磅综述：三万字长文读懂单细胞RNA测序分析的最佳实践教程（原理、代码和评述）)、DNA甲基化分析、重测序分析、GEO数据挖掘（典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集）等内容。

哈佛大学单细胞课程|笔记汇总

为什么做单细胞？
如何得到单细胞原始数据并转换成分析需要的矩阵格式
质控前的数据准备
质控
归一化和主成分分析
聚类分析与可视化
marker识别与注释

哈佛大学单细胞课程|笔记汇总

单细胞转录组测序进展迅速，伴随而来的是许许多多的内容与讲义，很多课程都很长。。。嗨像我这样莫有耐心的小孩子，能完整看完的只有一个 —— Single-cell RNA-seq analysis workshop(https://github.com/hbctraining/scRNA-seq)。我将把教程内容尽量汇总，你需要做的就是点击收藏慢慢看！

撰稿人：协和张虎

（一）Why single-cell RNA-seq

在整个人体组织中，细胞类型、状态和相互作用非常多样。为了更好地了解这些组织存在的细胞类型，单细胞RNA-seq（scRNA-seq）提供了在单细胞水平上表达基因的信息。

哈佛大学单细胞课程|笔记汇总（一）_编程语言

单细胞转录组测序可用于 ：

探索组织中存在哪些细胞类型
识别未知/稀有的细胞类型或状态
阐明分化过程中或跨时间或状态的基因表达变化
识别在不同条件（例如治疗或疾病）下特定细胞类型中差异表达的基因
探索细胞类型之间的表达变化，同时纳入空间、调控和/或蛋白质信息

常见方法包括：

哈佛大学单细胞课程|笔记汇总（一）_人工智能_02

Challenges of scRNA-seq analysis

在scRNA-seq之前，我们通常使用bulk RNA-seq进行转录组分析。bulk RNA-seq是一种直接比较细胞的平均表达值的方法，在寻找疾病生物标志物，或者不关心样品中大量细胞异质性的情况下，这可能是最佳方法。

尽管bulk RNA-seq可以探索不同条件（例如治疗或疾病）之间基因表达的差异，但无法充分捕获细胞水平的差异。例如，在下面的图像中，如果进行bulk分析（左），我们将无法检测到基因A和基因B的表达之间的正确关联。但是，如果我们按细胞类型或细胞状态正确地对细胞进行分组，我们可以看到基因之间的正确相关性。

哈佛大学单细胞课程|笔记汇总（一）_大数据_03

scRNA-seq也有一定的局限性，除了制样和建库价格高昂外，它在数据分析中也具有一定的复杂性，包括：

数据量大
细胞的测序深度低
细胞/样品之间的技术差异
跨细胞/样品的生物变异性

数据量大

scRNA-seq实验的数据来自捕获的成千上万甚至百万个细胞，对应的测序数据也就有百千万条reads，需要更多的内存和存储空间。

细胞的测序深度低

基于液滴的scRNA-seq方法的测序深度较浅，通常每个细胞只能检测到转录组的10-50％ (生信宝典注：这主要是因为RNA捕获率低)。这导致细胞中许多基因的计数为零（可能是不表达，也可能是未捕获到）。但是，在特定的细胞中，基因的零计数可能意味着该基因未表达或仅表示该转录本未被检测到。在整个细胞中，具有较高表达水平的基因测到0值的机率较低。由于此特征，在任何细胞中都不会检测到全部基因，并且细胞之间的基因表达差异很大。

Zero-inflated?：scRNA-seq data is often referred to as zero-inflated; however, recent analyses suggest that it does not contain more zeros than what would be expected given the sequencing depth （Valentine Svensson’s blog post：http://www.nxn.se/valent/2017/11/16/droplet-scrna-seq-is-not-zero-inflated）.

跨细胞/样品的生物变异性

我们不感兴趣的某些生物差异可能导致细胞之间的基因表达比实际生物细胞的类型/状态更为相似/不同，并掩盖细胞类型。这些变异（除非实验研究的一部分）包括（以下为原文）：

Transcriptional bursting: Gene transcription is not turned on all of the time for all genes. Time of harvest will determine whether gene is on or off in each cell.
Varying rates of RNA processing: Different RNAs are processed at different rates.
Continuous or discrete cell identities (e.g. the pro-inflammatory potential of each individual T cell): Continuous phenotypes are by definitition variable in gene expression, and separating the continuous from the discrete can sometimes be difficult.
Environmental stimuli: The local environment of the cell can influence the gene expression depending on spatial position, signaling molecules, etc.
Temporal changes: Fundamental fluxuating cellular processes, such as cell cycle, can affect the gene expression profiles of individual cells.

哈佛大学单细胞课程|笔记汇总（一）_编程语言_04

Image credit: Wagner, A, et al. Revealing the vectors of cellular identity with single-cell genomics, Nat Biotechnol. 2016 (doi:https://dx.doi.org/10.1038%2Fnbt.3711)