语言模型助力探索蛋白质-DNA结合位点_语言模型

今天给大家讲一篇2024年1月在Briefings in Bioinformatics上发表运用深度学习方法识别蛋白-DNA结合位点的一篇文章。本文首先提出了一种结合对比学习和预训练语言模型的方法(CLAPE),以此来预测DNA结合位点。为了评估模型的分类性能和泛化能力,作者在两个外部蛋白质与DNA结合位点的测试集进行了实验,结果表明在仅基于序列信息的条件下CLAPE-DB具有更优的泛化能力,并对于DNA结合位点具有特异性。因此该模型的提出有助于人们探索未知结构的蛋白与DNA的结合情况,并进一步提供强有力的可解释性分析。

蛋白质‑DNA结合位点预测的研究背景

DNA与蛋白质相结合是生物学中许多关键生物过程的基础,包括DNA转录、复制、表达等环节。转录因子是一类特殊的DNA结合蛋白质,它们通过与特定的DNA序列(基序)结合,调控基因的转录过程。因此二者的相互作用是维持生物体遗传信息传递的关键一步,现有一些计算方法主要分为从基于序列角度结构角度来预测二者的结合位点,基于序列的模型如BindN使用了几种氨基酸属性作为序列特征,并通过支持向量机(SVM)对结合残基进行分类。基于结构的方法如GraphBind利用图神经网络(GNN)来提取蛋白的序列和结构特征,以此来识别蛋白质分子中哪些氨基酸残基与核酸的结合位置。然而基于结构的方法需要准确的蛋白质结构作为模型的输入,因此,目前基于蛋白质序列的DNA结合位点的预测仍然是一个具有挑战性的问题

预测方法设计流程

作者提出了CLAPE模型用于预测蛋白质‑DNA结合位点(图1),其包含三个核心模块,序列嵌入模块是根据ProtBert的预训练语言模型生成蛋白质序列表征。主干提取模块则是通过MLP, CNN等模型提取深层的蛋白信息。损失函数模块包括解决类别不平衡的focal loss及对比损失,并通过反向传播更新模型参数。基于预训练模型来提取特征可以有效避免了人工特征提取过程的繁琐。

语言模型助力探索蛋白质-DNA结合位点_人工智能_02

图1 CLAPE模型架构

实验设计

3.1模型泛化性评估

作者挑选了TE46TE129作为评估模型泛化性的两个外部测试集。图2A和图2B分别为TE46和TE129两个外部测试集的预测结果。通过与现有主流的基于蛋白质序列的预测与DNA结合位点的模型进行比较发现CLAPE-DB模型在这两个外部数据集上的表现都优于其他方法。具体而言,在TR646数据集上训练的CLAPE-DB在各个分类指标上均优于次优模型DBPred。此外,DBPred模型则是采取手工的方式提取特征,并使用了与CLAPE-DB架构接近的CNN模型。将其与CLAPE-DB相比凸显了使用预训练模型提取特征的优势。

语言模型助力探索蛋白质-DNA结合位点_泛化_03

图2 外部测试集上模型的表现

3.2 探究损失函数的参数设置

类别不平衡的损失的超参数在模型训练中尤为重要。图3A结果表明超参数调整范围设置为1到10时分类指标AUC趋于稳定,且越大性能越差,因此作者将该值设为5。图3B表明将学习率设置为0.01时,可以达到最佳分类性能。为了更直观地理解负样本和正样本之间的距离分布,对ProtBert生成的嵌入表征计算两两之间的欧氏距离,并用核密度估计图对正负样本分别进行可视化,可以发现其分布主要集中于7 到12之间(图3C)。至此,为了获取最佳的分类性能,作者还将边缘值调整为9以获得最佳性能(图3D)。

语言模型助力探索蛋白质-DNA结合位点_语言模型_04

图3 损失函数参数设置

3.3 预测案例分析

为了直观地比较CLAPE-DB对于蛋白质‑DNA结合位点的预测性能,作者选择了两种蛋白质结构(多重抗体耐药调节剂(MarR)家族和转录抑制蛋白),可以看出CLAPE-DB能够准确预测DNA结合位点,而DBPred只能捕获有限的真阳性位点。此外,大多数假阳性位点位于结合位点附近。如图4结果可知,不依赖于蛋白质结构的情况下,CLAPE-DB模型可以有效地学习空间相邻的氨基酸残基的结构信息。

语言模型助力探索蛋白质-DNA结合位点_损失函数_05

图4 CLAPE-DB模型预测结合位点可视化

结论

作者在该文中提出了一种深度学习模型CLAPE,用于从蛋白质序列或结构中识别蛋白与DNA的结合位点。该模型结合了大规模预训练的蛋白质语言模型和对比学习方法以此来准确预测给定蛋白质序列的DNA结合位点。

为了验证模型的泛化性,CLAPE-DB模型在两个基准数据集上比现有基于序列的模型具有更优的分类性能。此外,在没有准确的蛋白质晶体结构的情况下,CLAPE-DB在分类性能上仍然优于基于结构的预测模型。上述实验表明CLAPE-DB可以有效地学习DNA结合位点的潜在分布

参考文献

  1. Kalia A, Krishnan   D, Hassoun   S. CSI: Contrastive data Stratification for Interaction prediction and its application to compound–protein interaction prediction. Bioinformatics  2023;39.

语言模型助力探索蛋白质-DNA结合位点_损失函数_06