RNA的表达水平矩阵稀疏
把reads比对到基因组,然后计算比对到基因上的read count。发现表达矩阵十分稀疏。
RNA的表达水平填补问题:
相对于bulk转录组测序,单细胞测序具有更高的噪声水平。
单细胞测序时,有些基因表达量较低而无法完全被检测到,这种由技术造成的检测基因表达数据不真实的情况被称为dropout效应。与此同时,在细胞中有些基因确实没有表达,我们称之为真零值。在测序结果中,往往混杂着由于dropout效应造成的零值和真零值。
区分真零值和dropout效应造成的零值,降低技术噪音,对于单细胞测序数据后续分析具有较为重要的作用。但是这一方法也存在副作用,即其在进行数据预测填补的过程中会引入一些假阳性结果。
目前,已经有多种软件可以对单细胞测序数据进行预测和填补,其中主要原理是通过数据内部的信息,处理被软件判断为dropout效应造成的零值。一篇发表在F1000Research的文章选择了六种imputation相关的软件进行了相关评测,分为是scImpute、SAVER、DrImpute、MAGIC、dca以及knn-smoothing。
https://doi.org/10.12688/f1000research.16613.2
- 1.Imputation归罪, 归咎, 设算, 分配
- 2.multiple imputation多重替代法, 多重填补, 多重插补法, 多重填补法
(REF:https://cloud.tencent.com/developer/article/1675219)