欢迎关注”生信修炼手册”!

目前利用RNA_seq数据预测环状RNA的软件非常多,为了方便研究人员更好的选择合适的工具,有学者专门评估了以下11款软件的性能

  1. CIRCexplorer(CE)
  2. circRNA_finder(CF)
  3. CIRI
  4. DCC
  5. find_circ(FC)
  6. MapSplice(MS)
  7. NCLScan(NCLS)
  8. PTESfinder(PT)
  9. Segemehl(SG)
  10. UROBORUS(UB)
  11. KNIFE

括号中为对应的缩写,对应的文献地址如下

​https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005420​

为了更加全面的评测各个软件的性能,构建了以下四个数据集

  • positvie dataset,该数据集基于circBase数据库中已知的14689个环状RNA,采用CIRI-simulator工具模拟出了读长为101bp,插入片段均值为350bp的10M测序reads
  • background dataset,该数据集基于UCSC提供的refMrna序列,采用ART工具模拟出双端测序的reads作为阴性对照
  • mixed dataset,该数据集就是将以上两种阳性和阴性数据合并
  • real dataset,该数据集来自SRA数据库中其他环状RNA研究团队提供的真实测序数据

基于阳性和混合数据集来评估不同软件的精确度和灵敏度,软件的性能用ROC曲线来进行展示,如下所示

文献解读|环状RNA预测软件评估_数据

图a为基于阳性数据集的结果,图b为基于混合数据集的结果,ROC曲线下的面积称之为AUC, 该数值越大越接近1,说明软件的综合性能越好。上图中基于以下数据进行绘制

文献解读|环状RNA预测软件评估_数据_02

可以看到,基于这两个数据集,KNIFE这款软件的综合性能更好。基于阴性数据集来评估软件的假阳性率,结果如下所示

文献解读|环状RNA预测软件评估_数据_03

可以看到,除了NCLScan外,其他软件都有一定比例的假阳性存在,其中MapSplice, CIRCexplorer, DCC这三款软件的假阳性率是比较低的。

为了更加准确的反应软件的性能,采用了真实数据集进行评估,其中真实数据集又分为了RNase R酶处理和未处理两种条件,可以用于比较软件对于不同实验条件的敏感性,结果如下所示

文献解读|环状RNA预测软件评估_数据_04

可以看到同样的样本,用RNase R酶处理前后软件能够识别到的环状RNA数量是不同的,综合来看,用RNase R酶处理可以富集环状RNA,更有利于环状RNA的检出。同时很明显看到,软件对于不同实验条件也是非常敏感,结果中的Not depleted计算的是两种条件下的差集,大部分软件在两种实验条件下的结果差异很大。

除了预测结果的准确性等指标,还对软件消耗的硬件资源进行了评估,结果如下所示

文献解读|环状RNA预测软件评估_运行时间_05

图a代表运行时间,可以看到MapSplice的运行时间最久,CIRCexplorer, circRNA_finder的运行时间最快,图b代表内存,可以看到find_circ,的内存消耗最小,而Segemehl的内存消耗最大,图c表示硬盘IO,CIRCexplorer, circRNA_finder消耗的磁盘IO较少,MapSplice占用的磁盘IO较多。

最后得出了一个结论,没有哪一个软件能够适用于所有情况,综合各个指标来看,CIRI, CIRCexplorer, KNIFE这三款软件的性能更佳,可以作为第一选择。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

文献解读|环状RNA预测软件评估_数据集_06