NBT | 基因注释质量评估新工具OMArK，超越BUSCO

原创

生物信息与育种 2024-06-22 15:24:18 博主文章分类：工具 ©著作权

©著作权归作者所有：来自51CTO博客作者生物信息与育种的原创作品，请联系作者获取转载授权，否则将追究法律责任

今年2月，Nature Biotechnology在线发表论文：Quality assessment of gene repertoire annotations with OMArk，描述了一个用于评估蛋白质编码基因注释质量的OMArk软件包。

NBT | 基因注释质量评估新工具OMArK，超越BUSCO_生物信息

许多研究直接依赖于从基因组组装中预测的蛋白质编码基因库（“蛋白质组”）来进行比较。这样做依赖于以下假设：所有基因组的预测基因含量都具有同质性，并且准确反映了现实。然而，在实践中，这种假设很少得到满足，蛋白质编码基因在报告的蛋白质组中经常缺失或片段化，非编码序列被基因预测因子错误地注释为编码基因，或者来自其他物种的污染被错误地包含在报告的序列中。

新方法OMArk提供了一种轻松全面地测量蛋白质组质量不同方面的方法：基因库的完整性，所包含基因在分类水平上的一致性，它们是否具有可疑的基因结构，以及是否存在域间或域内污染。此外，与现有方法相反，OMArk 不依赖于手动选择参考数据集;相反，它会自动识别测试蛋白质组最可能的分类分类。因此，它可以使用通用参考数据库处理生命之树上的任何测试蛋白质组。

NBT | 基因注释质量评估新工具OMArK，超越BUSCO_生物信息_02

使用方法

在线版本

地址：https://omark.omabrowser.org/

上传蛋白序列即可。

如果一个基因有多个isoforms，则上传txt文档，区分哪些基因ID为同一基因。

NP_001300751.1;NP_571866.2;XP_005166949.1 NP_001258730.1
XP_005166105.1
NP_001300751.1;NP_571866.2;XP_005166949.1

结果示例：

NBT | 基因注释质量评估新工具OMArK，超越BUSCO_h5_03

2个重要评估结果：完整性（Completeness）和一致性（Consistency），都是用柱状图展示，其中missing和unknown比例越少越好。

本地版本

下载OMAmer Database，推荐所有物种，文件为LUCA.h5。

地址：https://omabrowser.org/oma/current/

conda  install  -y -n omark_0.3.0
omamer search --db LUCA.h5 --query pep.fa --out pep.fa.db
mkdir output
omark -f Atha.pep.fa.db -d LUCA.h5 -o output

相比于BUSCO，OMArk的运行速度还是比较快的。

更多使用方法参考Github：https://github.com/DessimozLab/OMArk

作者：生物信息与育种，若要及时了解动态信息，请关注同名微信公众号：生物信息与育种。

上一篇：推荐怎么绘制CNS级别的科研图片？

下一篇：Sandbox | 免费在线的生信交互学习平台

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯