单细胞数据只有matrix和barcodes 单细胞doublet

转载

技术博客领航者 2024-05-02 22:49:19

文章标签 其他聚类 d3 数据 文章分类 架构后端开发

之前在公粽号发布了几个问题，接下来我会依次给出我的想法，仅供参考。有不同意见的话，欢迎给我发邮件讨论：huangsiyuan1001@163.com

问题

❝
怎么去doublet？挑选出某一大类做小类降维聚类的时候，有人仍然会检查一下各种大类marker的表达情况，这一步是否有必要？
❞

1

最有效的方法还是从上游入手，控制细胞数以及优化测序之前的流程。

2

不过分析数据的人只能从分析的角度来看了。一般我会「先用软件预测」，可以参考我之前写的一篇帖子：单细胞分析实录(4): doublet检测。

这里引出一个问题，去doublet是在哪一步进行：

跑完cellranger得到矩阵，去doublet，基本QC(基因数、UMI数等等)...
跑完cellranger得到矩阵，基本QC(基因数、UMI数等等)，去doublet...

两种应该差别不大。我一般是第一种，考虑到基本QC可能会来回换几次阈值，所以基本QC这一步应该相对靠后，省得再跑doublet这一步

软件一般我会用多个，「两个」软件同时报告为doublet的cellular barcode，我会挑出来去掉。

3

除此之外，我还会用一些经典的marker来找doublet。（这种方法也能用来注释细胞）

celltype_marker=c(
  "Epcam",#上皮细胞 epithelial
  "Pecam1","Cdh5",#内皮细胞 endothelial
  "Pdgfra","Col1a1","Col3a1",#成纤维细胞 fibroblasts
  "Fcgr1","Cd163","Aif1","Cd68",#髓系细胞 myeloid
  "Ms4a1",#B细胞
  "Cd3g","Cd3e",#T细胞
  "Ncr1",#NK细胞
  "Ptprc"#免疫细胞
)
VlnPlot(allseu,features = celltype_marker,pt.size = 0,ncol = 2)

类似这样，如果某群cluster表达了不太可能同时出现的gene，则有可能是doublet。当然也要凭借一些「经验」，比如成纤维的marker可能在内皮细胞中有「一定程度」的表达，CD4(一个基因)可能在髓系细胞中有「一定程度」的表达，这是可能的。但T细胞高表达EPCAM，我是不相信的。