什么是批次效应?
大型的单细胞测序项目一般都会产生许多细胞,这些样本制备过程很难保持时间一致、试剂一致,另外上机测序的时候也不一定在同一个测序仪上。
具体可以看这篇文章:
https://www.nature.com/articles/nrg2825
Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments or if two different lots of reagents, chips or instruments were used.
简而言之,不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,反映到细胞的表达量上就是批次效应,这个很难去除但可以缩小。如果效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。我们需要辨别到底存在多大程度的批次效应,对我们真实的生物学样本会不会产生影响。
校正批次效应的目的就是:减少batch之间的差异,尽量让多个batch的数据相一致,这样下游分析就可以只考虑生物学差异因素。
https://www.plob.org/article/20845.html
----------------------------------
单细胞测序 批次效应 batch effect
批次效应,顾名思义,不同批次带来的效应。
深层次造成批次效应的原因
宏观层面
1)对样本处理问题,2)细胞活性问题,3)试剂kit问题,4)测序问题,等
微观本质上
1)造成了样本间mRNA的相对不稳定,2)造成细胞破裂,其mRNA流出最后污染整个样本,3)造成样本间mRNA捕获率不一致,4)造成测序饱和度不一致,或者数据质量不一,等
不同项目中,面临的批次效应程度各有不同,有些可以不用特殊处理,有些甚至怎么处理都不管用。
----------------------------------
在数据分析的时候,我们的目标是找到样本之间真实的生物学差异。但是这种真实的生物学因素往往会受到各种因素影响,举几个场景
不同样本
同一样本的生物学重复
同一样本的技术重复
同一样本在同一个实验室由同一团队在不同时间点处理
同一细胞系/小鼠在不同实验室
不同建库策略,10X平台,Drop-seq, SMART2-seq
不同测序平台,BGI/Illumina
不同分析流程(甚至一个工具的多个版本,如salmon,CellRanger)
这些因素之间有些是生物学真实的差异,有些是抽样时的随机波动。有些是系统性因素,比如说批次效应(batch effect)。
我们没有足够的信息来判断此处是否存在批次效应。要做出决定,我们确实需要对每个簇所代表的细胞类型/状态有所了解。(https://zhuanlan.zhihu.com/p/354341992)
----------------------------------
做单细胞测序的时候,我们往往用到不同时期或者不同测序平台的数据,即使是同样的细胞类型,也可能完全不能聚类到一个类群中,如下所示,这两个数据是不同时期做的同一个细胞,几乎没有交集,因此,我们分析的时候需要去除批次效应。
去除批次效应之前:
去除批次效应之后:
链接:https://www.jianshu.com/p/406ece042c26
----------------------------------
代码示例:
https://www.plob.org/article/20845.html
数据:CEL-seq, GSE81076
数据是Grun et al. (2016) 利用CEL-seq方法,加入了UMI、ERCC,表达矩阵可以从GEO获取(https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE81076)
----------------------------------
14种单细胞测序去批次效应哪家强
https://www.sohu.com/a/393003790_120691808
----------------------------------
2020年5月11日,在《Nature Communications》有一篇名为“Deep learning enables accurate clustering with batch effect removal in single-cell RNA-seq analysis”的文章。文中介绍了一种深度学习算法——DESC,它是一种无监督的深度嵌入算法,通过迭代优化聚类目标函数对单细胞RNA测序的数据进行聚类,并且能够消除批次效应。通过全面的评估证明了DESC可以在群集精度和稳定性之间取得适当的平衡,并且内存占用空间很小,不需要批次信息就可以消除批次效应,同时还能利用GPU。随着单细胞研究规模的不断扩大,DESC能够成为在生物医学研究领域中一个十分有价值的工具。
https://zhuanlan.zhihu.com/p/140719429----------------------------------
当将细胞分组操作时可能会带来批次效应,比如不同芯片上的细胞、不同测序通道中的细胞或在不同时间点收集的细胞都归类于不同的组。实验操作过程中细胞所经历的不同环境可能会影响转录组的测量结果或甚至影响细胞自身的转录变化。所产生的影响存在多个层面:同一实验不同的细胞组、同一实验室的不同实验或不同实验室的数据集之间。在这里,我们把第一种情况与后面两种情况区分开。校正同一实验中样品或细胞之间的批次效应是bulk RNA测序批次效应的一种经典方案。我们将其与整合来自多个实验的数据(称为数据整合)区分开。通常批次效应校正使用线性方法,而非线性方法则用于数据整合。
https://www.embopress.org/doi/full/10.15252/msb.20188746
http://blog.sciencenet.cn/blog-118204-1220240.html
----------------------------------
https://www.bilibili.com/read/cv6412828/
https://zhuanlan.zhihu.com/p/354341992