mibPOPdb: 持久性有机污染物微生物生物降解的在线数据库

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_持久性

原文链接DOI: https://doi.org/10.1002/imt2.45

RESEARCH ARTICLE

●2022年8月17日,华中科技大学张后今团队在iMeta在线发表了题为“mibPOPdb: An online database for microbialbiodegradation of persistent organic pollutants”的文章。

● 本研究建立了一个基于图形神经网络的化学物质生物降解性分类预测模型。mibPOPdb是一个免费的数据共享平台,旨在促进基于微生物的持久性有机污染物的生物降解研究,填补环境保护研究中长期以来的空白。

●  第一作者:Tanyaradzwa R. Ngara; Peiji Zeng

●  通讯作者:张后今

●  主要单位:华中科技大学生命科学与技术学院

  亮   点

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_数据库_02

●  mibPOPdb该数据库是第一个人工整理的关于持久性有机污染物(POPs)的微生物降解的数据库

●  整合了从文献中提取的593个与持久性有机污染物生物降解过程有关的中间化合物的信息

●  开发了一个基于图形神经网络的模型来预测化学品的生物降解性,这将为持久性有机污染物的风险评估提供一个宝贵的工具

  摘   要

持久性有机污染物(POPs)的微生物降解是一种有吸引力的、生态友好的、具有成本效益的清理技术,可用于恢复受POP污染的环境。在过去的几十年里,有关降解POP的微生物、酶和数据集的出版物数量不断增加,因此有必要开发一个专门的数据库,对降解POP的微生物和工具进行分类与整合,以促进对POP降解数据集的综合分析。为了弥补这一知识空白,我们通过整理公共领域的微生物降解信息和已发表的科学文献,开发了持久性有机污染物微生物降解数据库(mib-POPdb)。目前,在mibPOPdb中,包括9215个微生物菌种,184个基因(亚)家族、100种酶、48条生物降解途径和593种在持久性有机污染物生物降解过程中发现的中间化合物,以及列入斯德哥尔摩公约环境条约的32种有毒化合物的信息。除了标准的数据库功能(包括数据搜索、浏览和检索数据库),我们还提供了一套生物信息学服务,以帮助用户使用自己的数据集与mibPOPdb数据进行比较分析。此外,我们建立了一个基于图形神经网络的化学物质生物降解性分类预测模型。mibPOPdb是一个免费的数据共享平台,旨在促进基于微生物的持久性有机污染物的生物降解研究,填补环境保护研究中长期以来的空白。数据库网址:http://mibpop.genome-mining.cn

全文解读

引  言

持久性有机污染物(POPs)是高毒性和易还原的有机化合物,通过食物网进行生物累积并在环境中长期存在。这些污染物具有通过土壤、水、大气和迁徙物种传播的潜力,导致它们在全球广泛传播。长期接触持久性有机污染物对生物圈和健康有不利的影响。《斯德哥尔摩公约》是一项监管持久性有机污染物的全球条约,于2004年生效,旨在保护人类健康和环境。《斯德哥尔摩公约》的签署国,在过去20年里已经禁止或严格限制了持久性有机污染物的使用和生产。

尽管大多数基于POPs的产品已被淘汰,但越来越多的证据表明,全球气候变化导致POPs从地表水库(如永久冻土、土壤、水和冰)重新溶解,成为POPs释放到生物圈的第二来源。此外,据报道,土地使用的变化和草甘膦引起的土壤侵蚀也导致了遗留的POPs的重新出现。遗留的持久性有机污染物的再次传播有可能诱发第二次毒性事件,这将影响全球为尽量减少人类和环境对这些有害化合物的接触而做出的努力。因此,近年来消除POPs的呼声越来越高。

利用微生物群落对POPs进行生物降解是一种相对可持续的、友好的方法,以恢复被POP污染的环境。高通量多组学技术、分子生物学、生物信息学和相对低成本的下一代测序技术的快速发展,提高了我们对微生物介导的生物修复的认识。这些进展为使用依赖培养和不依赖培养的微生物方法来降解持久性有机污染物开辟了途径。为持久性有机污染物的生物修复选择新的微生物物种和代谢基因也是一个重要的研究重点。

有一些大型的公共数据源,如GenBank、KEGG和UniProtKB,它们包含了从科学研究中产生的大量的核苷酸和蛋白质序列数据。然而,由于这些数据库中收集的生物信息数据规模巨大,且注释不足,要从数千万条序列中检索出微生物的生物降解数据集是非常困难的。因此,研究人员已经开始为特定的主题开发定制的数据库,以促进和推动简单和快速的数据搜索和检索,并为其他研究人员提供工具来分析数据。在这方面,用于环境污染物的生物降解数据集的专门数据库的发展,极大地促进了生物修复、生物降解研究和建模实验的系统生物学研究,有利于开发新的环境净化解决方案。在过去的三十年里,有几个数据库专门用于微生物介导的异型生物质的生物修复。EAWAG-BD是一个权威而全面的数据储存库,包含了近1400种异型生物质的生物降解信息、200多张通路、1500个反应、近1000种酶、543种微生物和249个生物转化信息。另一个网络资源是MetaRouter,这是一个综合平台,包含异型生物质生物降解的生化方面的数据,并提供查询生物降解途径的工具,以预测一个化合物的生物降解性。OxDBase则提供了从科学文献和数据库中提取的超过240种生物降解氧化酶的信息,对芳香烃的生物降解研究有帮助。Bionemo数据库是一个全面的网络资源,包含了320多个生物降解反应、130多个生物降解途径、1107多个蛋白质的序列信息,以及200多个转录单元、100个转录因子和100个启动子的转录调控信息。

此外,微生物介导的POPs生物降解研究数据随机地、不系统地分布在科学文献和公共资料库中,这使得研究人员在检索相关研究数据集以支持他们自己的生物降解研究时面临挑战,并耗费时间。到目前为止,还没有一个专门的网络资源来组织持久性有机污染物的微生物降解信息,并为研究人员提供分析数据的工具。因此,我们希望建立一个持久性有机污染物微生物降解信息的数据库,以便更有效地获取持久性有机污染物生物降解数据集,并促进数据分析和数据挖掘。

新化学品的开发在技术和科学进步中起着关键作用,同时也带来了严重的健康和环境问题。目前,大部分的化学品持久性/生物降解评价研究使用基于动物的检测方法来评估风险,并制定有效的风险管理策略来保护人类和环境。然而,这些测试费时、昂贵,而且从伦理角度看有问题。监管机构提倡使用替代方法,如计算机模型,它能以较低的成本和时间可靠地预测化学物质的生物降解性,并有可能减少动物试验的数量。近年来,一些定量结构-活性关系(QSARs)分类模型已经被开发出来,用于预测化合物的生物降解性。QSAR方法在化合物的化学结构信息和感兴趣的目标生物特性之间建立关联。然而,QSAR模型的可靠性和精确性取决于QSAR建模过程中的正确特征选择。此外,当QSAR模型被应用于他们所开发的应用范围之外的化学品时,会增加生物降解性分类模型的错误率。因此有必要开发新的更适合的生物降解性分类模型,深度学习方法的出现将对其有所帮助。

因此,我们开发了一个新的持久性有机污染物微生物降解数据库(mibPOPdb),该数据库提供了一个从科学文献中检索的微生物介导的生物降解POP数据集的网络服务器。该数据库包括持久性有机污染物的物理化学性质和分解反应的中间产物、经实验验证的降解持久性有机污染物的微生物和降解基因、生物降解数据和样品采集信息等。据我们所知,mibPOPdb是第一个通过网络界面系统地提供持久性有机污染物的微生物介导的生物降解信息的网络资源,便于浏览、查询、可视化和下载数据库中的持久性有机污染物降解信息。为了克服QSAR分类模型相关的局限性,本研究还提出了一个使用图形神经网络(GNN)来预测化学品的生物降解性分类的工具。基于GNN的模型在生物降解性分类任务中取得了可靠的预测结果,并有可能在对化学品的分类风险评估中取代QSAR模型。mibPOPdb是一个指定的开放平台,可以帮助专业的持久性有机污染物生物降解研究人员和广大科学界了解持久性有机污染物的微生物降解,并促进发现持久性有机污染物生物修复研究的新途径。

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_人工智能_03

图1. mibPOPdb的结构、内容和界面的概况

mibPOPdb的数据包含三个类别,主要来自于文献、生物数据库和科学数据库。用户友好的在线界面支持数据查询、浏览、上传新的数据集和下载存放在mibPOPdb的各种信息。

结   果

化学物以及文献检索结果

该数据库研究了多种受《斯德哥尔摩公约》管制的化学品比如艾氏剂、六溴环戊烷等。文献检索结果的筛选在附表1中说明。最初的文献检索涉及7159条参考文献。在删除2486条重复记录以及1986条不合格参考文献后,对剩下的2687条参考文献的全文进行了人工筛选。1623条参考文献因不符合我们的资格标准而被排除。

数据内容和统计

当前版本的mibPOPdb包含了来自1064篇文章的9215个微生物菌株、184个基因(亚)家族、100个酶、48个生物降解途径、593个在POPs生物降解过程中发现的间二酸盐化合物,以及目前被《关于持久性有机污染物的斯德哥尔摩公约》中所针对的32种有毒化合物的信息。一些被列入《斯德哥尔摩公约》的有毒化学品,如多氯联苯、多溴二苯醚(PBDEs)、多氯化萘、多氯二苯醚和多氯二苯呋喃,并不是单一的化合物,而是作为复杂的混合物出现。尽管有数百种多氯联苯、多溴联苯醚、多氯化萘等,但只有一小部分同系物显示出巨大的毒性潜力。

这些化合物的氯化/溴化模式决定了它们的毒性水平。基于对健康影响的综合考虑,具有共面结构的同系物表现出最大的毒理学效果。对于每组化合物的混合物,选择研究最多、毒性最大的同系物作为模型化合物,研究该组化合物的生物降解过程。例如,对于多氯二苯并对二噁英,研究最多且毒性最大的是2,3,7,8-四氯二苯并对二噁英,在本研究中被选为研究多氯二苯并对二噁英生物降解的模型化合物。

90%以上的微生物数据集由细菌组成,其次是真菌、藻类和古生物(图2A)。在这些微生物中,5706个细菌菌株和30个真菌菌株分别占mibPOPdb中POP生物降解功能基因数据集的99.48%和0.52%(图2B)。mibPOPdb共包含184个与持久性有机污染物相关的生物降解基因家族,涵盖了目前列入《斯德哥尔摩公约》的32种持久性有机污染物中的22种。有10种POP化合物的降解和任何生物的基因无关。mibPOPdb中的菌种水平信息是基于16S/18S rRNA和基因组序列信息,手动注释相关文献中的物种描述数据。mibPOPdb数据库有3479个从科学文献中收集的微生物菌种信息,其中细菌(包括2680个细菌菌种)占77.03%,真菌、藻类和淀粉类分别占17.79%、2.93%和2.24%(图2C)。

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_持久性_04

图2. 降解POP的微生物数据的统计信息

(A) mibPOPdb中微生物的总体分布。(B) 根据功能基因分析的降解POP的微生物菌株分布。(C) 根据系统发育或功能筛选研究的降解POP的微生物的分布。

预测模型和性能分析

评价五个模型的分类性能的统计参数是敏感性(Sn)、特异性(Sp)、平衡准确率(BA)和错误率(ER)。这是一个二分类模型(即易生物降解[RB]和不易生物降解[NRB]),在评价一个模型的预测能力时,这些统计参数都被考虑在内。

表1中收集了五个GNN模型在训练集和外部验证集上的五倍交叉验证的单独分类性能。每个GNN模型在训练集和外部验证集上的对于NRB类的敏感性和特异性,以及平衡准确率和错误率都有报告。在最终测试集和外部验证数据集中,所有五个分类模型都显示出较高的平均性能,BA值分别为0.89-0.93和0.88-0.90。从交叉验证结果来看,模型4在最终测试和外部验证数据集上都表现出最高的平均性能,其BA值分别为0.93和0.90。模型4的错误率是五个模型中最低的,在最终测试集和外部验证数据集中的ER值分别为0.07和0.10。所有提出的分类模型都表现出相同的结果趋势,即特异性高于敏感性,这意味着与RB分子相比,模型可以正确地对NRB分子进行分类,具有更稳定的预测能力。在五个分类模型的交叉验证结果中,在测试和外部验证数据集上得到的特异性、敏感性、准确率和错误率的值是相当的,表明了该分类模型的可靠性和稳健性。在表1中提出的5个基于GNN的分类模型中,模型4在测试集和外部验证数据集上都显示出最佳的特异性和敏感性,因此被用于预测化学分子的生物降解性。

表1. 测试集和外部验证数据集的五倍交叉验证的分类性能结果

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_数据集_05

本研究中提出的GNN模型与Mansouriet等提出的QSAR模型进行了比较。表2结果显示,与文献中已经发表的QSAR模型相比,本研究中基于GNN的模型表现出一定的改进分类性能。GNN模型的平均性能略高,测试和外部验证集的BA值分别为0.93和0.90。QSAR模型的平均性能较低。偏最小二乘法判别分析模型在测试集的平衡精确率最低,为0.85,支持向量机模型在外部验证集的平衡精确率最低,为0.82。与QSAR模型相比,基于GNN的模型在测试集和外部验证数据集上的错误率最低(ER值分别为0.07和0.10)。这证明GNN模型可以快速、准确地预测分子的生物降解性。GNN模型表现出与QSAR模型类似的趋势:对于最终的测试集和外部验证集,特异性高于敏感性。另外,GNN分类模型对NRB分子的预测和分类比RB分子更准确。

表2. 比较GNN模型和已发表的QSAR模型在同一生物降解性实验数据集上的分类性能

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_持久性_06

讨   论

尽管在过去30年里有研究人员建立了专门的网络数据库,用来研究微生物介导的异型生物质的生物降解,但其中有几个要么已经下线,要么不再维护。此外,系统地收集经过验证的降解持久性有机污染物的微生物也很罕见。基于微生物的持久性有机污染物生物降解的成功,取决于对不同环境中的微生物群落进行特征分析,以研究其生态和生物多样性,并确定其对持久性有机污染物的生物修复能力。因此,建立一个包含基因组学、蛋白质组学和微生物降解实验的综合数据库对于研究降解持久性有机污染物的微生物是一个重要的发展。我们建立了mibPOPdb,这是一个人工策划和开放的数据资源,提供经过实验验证的POP降解微生物群落的信息。mibPOPdb数据库包含了《斯德哥尔摩公约》中所列的POP化合物、POP降解相关的功能基因和菌种、降解过程中的中间化合物以及POP生物降解实验研究的结果等信息。

细菌一直是生物修复研究的重点;然而,近来,古细菌和真核生物已被证明在异型生物质的生物降解中发挥了重要作用。mibPOPdb是一个综合的网络资源,显示了各种降解持久性有机污染物的藻类、古细菌、细菌和真菌菌株的信息,它可以促进开发新的持久性有机污染物生物修复方法,从而利用未被充分利用的微生物领域的能力。目前,古细菌在降解持久性有机污染物方面的作用仍不清楚。研究表明,甲烷菌对氯化污染物进行厌氧生物降解中起着关键作用。发酵菌在产甲烷条件下对持久性有机污染物进行还原脱氯,同时产生乙酸或氢气。产甲烷菌能够降低乙酸盐和氢气的浓度,并推动了厌氧降解过程。此外,有机卤化物呼吸细菌缺乏合成冠突烷的能力,而冠突烷是还原性脱卤酶系统功能中必不可少的酶辅助因子。在这些厌氧环境中,古细菌可能为这些脱氯剂提供了关键的类化合物。

通过对典型的细菌候选物以外的持久性有机污染物降解微生物信息的人工整理,mibPOPdb可以为更多发现新型持久性有机污染物降解酶的研究打下基础,有利于新的持久性有机污染物生物修复策略的发展。此外,mibPOPdb还提供了关于持久性有机污染物生物降解过程中产生的中间代谢物和最终产品的实验验证数据集。尽管有实验验证的POP生物降解结果,但它们通常是在科学文献中报告的,很难挖掘,限制了POP降解研究中实验数据的可用性。mibPOPdb的目的是通过将这些持久性有机污染物降解实验数据集整合到数据库中,提高这些实验数据集的可获得性,从而填补这一空白。从环境中有效清除持久性有机污染物及其分解过程中的中间代谢物的新技术的开发,取决于对这些数据集的整合。

基于计算的方法在预测和评估化学物质的生物降解性方面逐渐变得重要。一些QSAR分类模型被用来预测化学品的生物降解性。然而,QSAR模型的复杂实现限制了其功能。而GNNs已经成功地应用于处理图形结构数据的各种生物领域,如分子活性和特性、合成和相互作用的预测。在分子图理论下,分子结构可以被解释为化学图,其中分子的原子和键分别被映射为节点和边的集合。这种类型的表示方法在图的研究中作为输入特征很有用,可以对分子结构进行数学处理。特征是自动从原始输入中提取的,而QSAR分类模型则受到一定程度的偏见影响,因为所选的特征或预定义的描述可能会遗漏重要的结构信息。

本研究开发的GNN模型利用分子图中原子的特征来预测化合物的生物降解性,与已报道的QSAR模型相比,取得了更高的整体分类性能。此外,GNN模型显示了稳定的分类性能,因为它不像传统的机器学习模型那样利用预定义的分子指纹,这需要执行复杂的特征选择过程。另外,了解化学品的结构在化学领域很重要。RDKit 将查询化合物的图形描述生成为图像。确定查询化合物的结构式可为科学家提供其化学式的直观表示。在化学信息学中,化学图像与深度学习算法相结合,实现了不借助于化学描述的情况下预测化学毒性。

数据库的访问和使用

网络界面和数据浏览

mibPOPdb数据库可以通过一个用户友好的网站(http://mibpopgenome-mining.cn)免费访问,为生物研究人员提供了获取持久性有机污染物微生物介导的生物降解信息的途径。通过一个用户友好的界面,mibPOPdb提供了浏览、查询持久性有机污染物微生物降解详细信息、下载所有数据的工具,以及一系列在线生物信息学服务和化学生物降解性预测工具(见图1)。

主页的用户界面非常简单(图3A)。在mibPOPdb主页上,用户可以通过在下拉菜单中的POP化合物列表中选择POP化合物,然后选择他们希望显示数据集的微生物类型,快速访问和检索特定POP化合物的微生物生物降解数据集(图3B)。

查询结果将显示能够降解该POP化合物的生物(图3C)。工具页面包含化学生物降解性预测工具。帮助页面显示了有关浏览数据库的信息。搜索序列页面提供了一套在线生物信息学服务,供用户在数据库的框架内执行序列比较分析研究。

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_数据库_07

图3. mibPOPdb的用户界面

(A) mibPOPdb的主页。(B) 下拉菜单。用户可以从列表中快速选择他们感兴趣的POP化合物和生物,并检索其微生物POP降解数据集。(C) 使用主页上的下拉菜单服务快速浏览数据结果。

浏览页面有六个子页面,即化合物、生物、生物降解基因、中间产物概况、降解途径和酶。用户可以找到以下的基本注释。

"化合物"页面,包含POP化合物名称、上市年份、CAS编号等。点击 "POP细节 "按钮,用户会被引导到包含该特定化合物详细信息的报告卡页面。该页面上呈现的信息包括化合物的列表信息、化合物的一般描述、结构类似物和出版信息。用户可以回溯到为该化合物提供报告的文献来源。还提供了外部资源的链接,如ChemSpider、DSSTOX、PubChem和欧洲化学品管理局(ECHA)。

"生物"页面,包含生物体类型、菌株编号、核苷酸序列编号、降解的化合物以及微生物样本来源国家。用户可以通过点击菌株详细信息按钮来访问特定菌株的详细信息。详细信息报告卡页面包含菌株的一般信息、原始环境样品的采集地点、所代谢的POP化合物、生物修复信息以及参考文献。

"生物降解基因 "页面包括生物体的类型、菌株ID、编码基因、蛋白质序列ID和降解的化合物。生物降解基因的详细信息页面提供了所代谢的化合物的信息,样本的地理位置,科学文献的链接,以及降解基因的信息,比如编码基因、酶的名称、UniProt ID和序列ID。

"中间产物概况"页面,包含降解的POP、中间化合物和化合物的CAS号。通过点击中间化合物的详细链接,可以访问特定中间化合物概况的详细信息页面。详细的报告卡包含关于降解的持久性有机污染物、持久性有机污染物的降解途径、确定的中间化合物和中间化合物的物理化学性质的信息。PubChem、KEGG和ChemSpider IDs作为外部链接提供。

"降解途径"页面包含了一个下拉菜单,其中包含了依靠实验证明的微生物降解文献所构建和绘制的POP降解路径。每条生物降解途径的详细报告卡显示了被降解化合物的信息、持久性有机污染物的一般描述、持久性有机污染物生物降解途径的图形显示,以及文献引用,以便用户可以回溯到报告生物降解途径的原始科学文献。

而在"酶"页面,用户可以获得有关酶功能的一般描述、酶类别、酶分类号、酶名称、与之相关的降解途径、酶催化的反应、编码基因和基因簇、BRENDA、KEGG、ExPASy和酶数据库的外部链接、微生物信息、GenBank、蛋白质ID和UniProtKB的链接,以及文献引用。

此外,在浏览化合物、生物体、生物降解基因和中间产物页面时,用户可以使用交互式过滤器标签,根据自己选择的标准显示数据集范围。文本过滤器帮助用户专注于特定的信息,并根据他们设定的标准进行有效的数据分析。此外,为了便于浏览,每个详细信息页面的底部都有一个交互式导航栏,帮助用户在点击按钮后快速浏览详细页面的不同部分。

数据查询

使用每个网页左上角的简单搜索栏,用户可以在数据库中搜索感兴趣的POP化合物、中间化合物、POP降解基因或POP降解微生物。支持文本和预测性搜索,便于在mibPOPdb中更直接、更快速地搜索信息。用户可以通过四个途径查询mibPOPdb:"按化合物名称查询"、"按CAS ID查询"、"按蛋白质和核苷酸序列登录号查询"、"按降解的化合物查询"。用户可以在搜索栏中输入他们想要搜索的内容的前缀词的几个字符。基于在mibPOPdb中找到的数据,将以 "值|数据字段|数据表 "的格式显示。值指的是mibPOPdb中的数据输入,其前缀与用户的输入相同,数据字段是存储该值的位置。数据表是用户在数据库中可能希望搜索关注的领域,例如,"七氯|化合物名称|化合物"。七氯是一个化合物名称,用户可以在化合物域中搜索其信息(图4A,B)。此外,mibPOPdb在 "搜索序列 "页面上提供了一系列用于序列分析的生物信息学工具,包括BLAST、Clustal Omega和Phylotree模块。人们可以使用BLAST序列相似性搜索寻找降解POP的微生物或其同源物。mibPOPdb中实现的Phylotree.js模块便于研究用户查询序列与mibPOPdb数据库中的局部序列之间的进化关系。

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_人工智能_08

图4. mibPOPdb数据的查询

用户可以通过四个途径查询mibPOPdb数据。"按化合物查询"、"按CAS ID查询"、"按蛋白质和核苷酸序列号查询"、"按化合物降解查询"。支持自文本和预测性搜索。(A) 以化合物名称作为输入的mibPOPdb的搜索界面。(B) 基于"按化合物名称搜索"的查询结果信息。

mibPOPdb还提供了一个预测化合物的生物降解性的工具。用户可以输入任意单一化合物的SMILES字符串(这包括《斯德哥尔摩公约》清单中没有涵盖的化合物),以确定其生物降解性。该预测工具的应用范围仅限于预测有机化合物的可生物降解性。此外,在预测结构不明确的混合物的生物降解性时,该工具的适用性也有限制,例如五溴二苯醚技术混合物(DE-71),它没有分配给SMILES字符串值。因为对于化合物的混合物无法获得SMILES,我们鼓励用户提交特定化合物的SMILES来预测化学生物降解性。图5是该工具对阿莫西林、二甲苯麝香、七氯和苯酚等化合物的化学生物降解性预测结果的一个例子。

输出结果返回了一个化合物结构的图形和预测的生物降解概率值的百分比。如前所述,根据日本国际贸易部(MITI)的生物降解性筛选测试,如果预测的生物降解性值等于或大于60%,则描述为RB化合物。如果预测的现成生物降解性值低于60%,则该化合物被归类为NRB。像阿莫西林这样的抗生素是不容易或不可被生物降解的。在这项研究中,阿莫西林的非生物降解性预测值为98.7%(图5A)。麝香二甲苯,一个著名的不容易生物降解的化合物,被预测为100%不可生物降解(图5B)。七氯是一种持久性有机污染物,属于NRB,其生物降解性值为99.7%(图5C)。化合物苯酚是筛选试验中的基准化学品,并被用作可被生物降解的标准参照物,其预测的可被生物降解性值为75.2%(图5D)。

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_数据库_09

图5. 预测化合物的生物可降解性

用户可以输入查询化合物的SMILES字符串。结果窗口显示了四个代表性化合物的生物降解性概率。(A)阿莫西林,(B)二甲苯麝香,(C)七氯,和(D)苯酚。

数据可视化

交互式数据可视化帮助用户更好地研究和理解mibPOPdb中的POP降解数据。交互式饼图根据原始环境样品的采集地点,显示持久性有机污染物的微生物降解研究的统计信息。交互式地图还可以帮助用户按大洲和地区来显示尚待开展或缺失POPs微生物降解研究的数据。通过点击地图上的任何一个数据点,人们可以立即访问与该地理位置相关的POP生物降解数据集。因此,数据可视化页面为探索mibPOPdb中的数据提供了一个理想的起点。

其他功能

数据的提交:mibPOPdb包含一个互动的数据提交功能,鼓励研究者按照设计好的提交指南提交新发表的与持久性有机污染物的微生物降解有关的数据集,从而帮助补充网络资源。在信息验证后将被上传并整合到数据库中。

代码和数据可用性

mibPOPdb数据库可通过http://mibpop.genome-mining.cn/地址进行访问,用于预测化学品生物降解性的数据集和独立代码可在github上免费获取(https://github.com/monsterZeng/MIBPOP/)

引文格式

Ngara, Tanyaradzwa R., Peiji Zeng, and Houjin Zhang. "mibPOPdb: An online database for microbial biodegradation of persistent organic pollutants." iMeta (2022): e45.

DOI: https://doi.org/10.1002/imt2.45

作者简介

iMeta | mibPOPdb: 华中科技大学张后今开发微生物降解POP在线数据库_人工智能_10

张后今(通讯作者)

●  华中科技大学教授,生物技术系博士生导师。

●  自2010年以来,先后主持国家自然科学基金青年基金、面上项目等多个项目。作为课题研究骨干参与国家重点基础研究发展计划(973计划)、国家重点研发计划。2020及2021年作为评审专家参与合成生物学重点专项的评审工作。近5年来,以通讯作者在Genomics Proteomics Bioinformatics, Sci Total Environ,Biosens Bioelectron,ACS Synth Biol等国际权威期刊上发表多篇论文。