之前在公粽号发布了几个问题,接下来我会依次给出我的想法,仅供参考。有不同意见的话,欢迎给我发邮件讨论:huangsiyuan1001@163.com

问题

怎么去doublet?挑选出某一大类做小类降维聚类的时候,有人仍然会检查一下各种大类marker的表达情况,这一步是否有必要?

1

最有效的方法还是从上游入手,控制细胞数以及优化测序之前的流程。

2

不过分析数据的人只能从分析的角度来看了。 一般我会「先用软件预测」,可以参考我之前写的一篇帖子:单细胞分析实录(4): doublet检测。

这里引出一个问题,去doublet是在哪一步进行:

  • 跑完cellranger得到矩阵,去doublet,基本QC(基因数、UMI数等等)...
  • 跑完cellranger得到矩阵,基本QC(基因数、UMI数等等),去doublet...

两种应该差别不大。我一般是第一种,考虑到基本QC可能会来回换几次阈值,所以基本QC这一步应该相对靠后,省得再跑doublet这一步

软件一般我会用多个,「两个」软件同时报告为doublet的cellular barcode,我会挑出来去掉。

3

除此之外,我还会用一些经典的marker来找doublet。(这种方法也能用来注释细胞)

celltype_marker=c(
  "Epcam",#上皮细胞 epithelial
  "Pecam1","Cdh5",#内皮细胞 endothelial
  "Pdgfra","Col1a1","Col3a1",#成纤维细胞 fibroblasts
  "Fcgr1","Cd163","Aif1","Cd68",#髓系细胞 myeloid
  "Ms4a1",#B细胞
  "Cd3g","Cd3e",#T细胞
  "Ncr1",#NK细胞
  "Ptprc"#免疫细胞
)
VlnPlot(allseu,features = celltype_marker,pt.size = 0,ncol = 2)

类似这样,如果某群cluster表达了不太可能同时出现的gene,则有可能是doublet。当然也要凭借一些「经验」,比如成纤维的marker可能在内皮细胞中有「一定程度」的表达,CD4(一个基因)可能在髓系细胞中有「一定程度」的表达,这是可能的。但T细胞高表达EPCAM,我是不相信的。

4

还有一个经验之谈:用marker鉴定doublet的时候,被鉴定出来的doublet(这是前提),可能单独聚出来成为一个小团,也有可能看上去像是连接某两个亚群的桥梁。

5

另外,上述都是针对大类clustering的描述,做小类的reclustering的时候,我一般不考虑去小类之间的doublet,一是因为很难区分,二是小类之间的doublet形成概率比大类doublet形成概率低很多。


6

还有一种情况(比较少见),是样本之间的doublet。这时,利用SNP可以比较精确地区分出sample1, sample2, 以及doublet(sample1+sample2)。

目前已经有一些工具可以从scRNA-seq数据中获取少量SNP信息,并达到上述目的,比如Souporcell(原文https://www.nature.com/articles/s41592-020-0820-1),准确性还可以。

但多数情况还是一个样本一测,这种思路可行性不大。


回到第2个小问题

挑选出某一大类做小类降维聚类的时候,有人仍然会检查一下各种大类marker的表达情况,这一步是否有必要?

很有必要。在做reclustering这一步的时候,检查大类marker的表达,我经常会看到其他大类细胞(或者是这类细胞与其他大类细胞组成的doublet)乱入。之前没做过这一步的朋友,可以试试,会有惊喜(吓)。

这时最严谨的做法是把乱入的其他大类细胞放回它应该去的地方,单细胞聚类注释就是一个“分分合合”的过程,也是最耗时最繁琐的过程。

如果数量不多,直接去掉,影响也不大。

如果是这类细胞与其他大类细胞组成的doublet,直接去掉。