会议时间:2023-7-6
会议地点:腾讯会议
作者: Zilong Hou, Yuning Yang, Zhiqiang Ma, Ka-chun Wong, Xiangtao Li
期刊:nature communications biology
年份:2023
论文原文:https://doi.org/10.1038/s42003-023-04462-5

主要内容

1问题 :

蛋白质-蛋白质相互作用(PPI)在细胞过程和途径中起着重要的调控作用。蛋白质相互作用位点识别存在两个问题:

现有识别蛋白质相互作用结合位点的计算方法主要基于生物特征设计,缺乏直接将蛋白质氨基酸序列编码为分布式表示的蛋白质语言模型。

实验检测到的蛋白质相互作用位点数量远远少于蛋白质-蛋白质相互作用或蛋白质复合物中蛋白质相互作用位点的数量,导致数据集不平衡。

2方法

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集


数据集

收集了三个广泛使用的基准数据集,Dset_186、Dset_72和Dset164。Dset_186是从PDB数据库构建的,186个蛋白质序列。此外,Dset_1291是来自BioLip数据库的数据集,使用Dset_843(Dset_1291的843个序列)来训练我们的模型,而剩余的448个序列(Dset_448)被用作独立的测试集。

数据集的分布相对不平衡,正样本仅占总样本量的10%-18%,这对模型的泛化提出了挑战。

RESIDUESNUMBERBINDINGRATIOODSET164DSET186DSET448DSET843450598DSET7211650033681DATASET362191814018.1015.2313.57TRAIN10.6010.14TEST

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_02


其中Dset_843和Dset_448是全长序列,Dset_186、Dset_72和Dset164是片段序列,数据集的序列同源性控制在25%以下。


特征描述符

为了充分探索蛋白质相互作用位点的结构特征,从蛋白质序列中提取了包括动态全局上下文信息和多源生物特征在内的几个特征。


动态全局上下文信息

为了解决传统生物实验代价高昂和一些基于深度学习的方法性能不高的问题,我们引入了基于动态词嵌入的ProtT5模型来表示蛋白质的特征表达信息。这种方法能够捕捉到不同序列和氨基酸之间的全局上下文敏感信息,经过实验证明其有效性。

具体而言,ProtT5使用Transformers体系结构来生成全局上下文嵌入。每个注意力头部在位置编码方面共享相同的编码,并应用于所有级别上。ProtT5首先通过嵌入层将每个氨基酸映射到一个固定长度的向量表示,然后利用位置嵌入来编码每个氨基酸在相应蛋白质序列中的相对位置信息。同时,片段嵌入被引入来区分不同的蛋白质序列。通过将标记嵌入、分段嵌入和位置嵌入相加,ProtT5不仅提供了氨基酸到底层空间的非上下文映射,还扩展了每个蛋白质序列中的氨基酸依赖关系和不同蛋白质序列之间的上下文关联。其定义如下:

0IOKWTOK+OSGGWSEG+OPO:NPOSWORD-BTOK+ESEG+EPOP'WORD一SEGT1

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_03


Wtok、Wseg和Wpos是要训练的相应权重矩阵,Otok、Oseg和Opos是相应的输入矩阵。这些权重矩阵用于将输入矩阵映射到适当的特征空间。之后,ProtT5模型中的动态词嵌入是通过Transformer架构的多头注意力机制学习的, 它被用来关联蛋白质序列中的相关氨基酸。

ProtT5模型中包含24层注意力堆叠,每层都由32个注意力头部组成,并且隐藏层的大小为1024。这种堆叠模式允许每个层对上一层的输出进行操作。通过这种重复的词嵌入组合方式,ProtT5模型在到达最深层时能够捕捉到更全面的特征信息。在该研究中,最后一层注意力堆叠的输出被提取出来作为特征表示。

多源生物学特征。此外,为了提高预测性能,我们获取了蛋白质残基的进化信息、物理性质和物理化学性质,以丰富特征表达。

(1)位置特定计分矩阵(PSSM)是一种用于描述蛋白质序列中残基位置的进化保守性和相互作用特异性的表示方法。PSSM通过对多序列比对中的相关序列进行分析,计算每个残基在不同位置上出现的频率,并将其转换为一个分数矩阵。

SCORE(A,B)=LOGM(A,B)/P.P

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_04


其中pa和pb分别表示观察到氨基酸a和b的概率,而M(a,b)是突变的概率分数。

(2)物理特征:图形指数、极化速率、归一化范德华体积、疏水性、等电点、螺旋概率和片概率。

(3)物理化学性质:原子数、静电电荷数和潜在氢键数。这些值只与氨基酸的类型有关,不包含来自氨基酸残基的任何结构信息。


集成深度记忆胶囊网络

为了更有效地捕捉混合特征方案中的关键信息,我们开发了集成深记忆胶囊网络(EDMCN)来最大化蛋白质-蛋白质相互作用位点识别的特征学习性能,如图1所示。深记忆胶囊网络通过将传统记忆网络与不同的输出大小相联系来扩展传统记忆网络的并行性,以捕捉不同深度尺度上氨基酸之间的相关性。此外,胶囊结构可以进一步探索特征之间的内在联系,并保留样本之间的位置信息。此外,为了提高模型的泛化能力和稳定性,引入了非对称的bagging算法来解决样本间的高度不平衡问题。


胶囊网络

RNN能有效地捕捉了特征之间的全局上下文依赖关系,但它往往会削弱局部特征之间的强相关性,并丢失特征类型的拓扑信息。为了解决这个问题,我们引入了胶囊网络。

胶囊网络由卷积网络部分和胶囊神经元组成,这些胶囊神经元在特征感知和描述上起着重要作用。与传统的卷积神经网络不同,胶囊网络中的胶囊神经元不仅仅表示特征的存在与属性,还反映了特征的重要性和各种状态,包括位置信息。

在胶囊网络中,卷积网络部分通常用于提取低级特征和局部特征,而胶囊神经元则用于捕捉特征之间的关联和全局上下文信息。每个胶囊神经元通过向量形式的输出表示特征的存在与属性,并且还包含胶囊的状态信息,如胶囊的激活程度或者说胶囊的存在概率。

通过动态路由算法,胶囊网络可以根据特征的重要性和相互关系,动态地调整胶囊之间的权重和传递信息的流向。这使得胶囊网络能够有效地捕捉特征之间的潜在关联,实现高度上下文相关的特征描述。同时,胶囊网络保留了特征的位置信息,因此能够更好地处理特征的空间关系和位置变化。

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_05


a、对输入数据做一维卷积,得到胶囊输入U的前身

b、路由权重W跟胶囊输入U打分,求和得到输出O

c、输出O跟胶囊输入U打分,求和更新路由权重W

d、重复b——c,便可以形成深层路由层

在胶囊网络中,胶囊神经元以类似于全连接的方式连接,对于当前层的胶囊c1,c2,…,ci,通过姿势变换(平移、旋转、收缩)学习局部特征和全局特征之间的位置关系:

G=WYG12

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_06

其中Wij是权重矩阵。然后,我们将每个变换后的向量乘以耦合系数oij,并将其传递给下一层胶囊,并对由下一层的第j个胶囊接收的所有神经元信号求和:

$三20(13

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_07

并且oij可以计算如下:

一S.B14

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_08


其中bij是两个胶囊是否连接的对数先验概率。与Sigmoid类似,使用名为Squash的非线性激活函数将向量映射到[0,1],同时保留了向量的方向,该层的胶囊输出vj可以计算如下:

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_09


通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_10


通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_11



集成深度学习算法

为了进一步提高模型的稳定性和泛化性能,采用了一种基于非对称Bagging算法的集成学习方法来处理不平衡数据集中类别的倾斜分布。Bagging是一种集成学习方法,它可以将多个不同分类器的预测结果整合在一起,然后在决策阶段使用投票机制来确定样本的类别,目的是减少方差,提高模型的泛化性能。Bagging方差衰减的原理由以下公式表示:

信对一信对一VAR(X十.十X)=VAR(X)十..十VAR(X)VAR(CX)=E(CX-EC=CE[(X-EX=CVARX1716)(18VAR

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_12


其中X表示独立样本,Var(X)是方差,E(X)表示样本X的均值。通常降低方差的方法之一是将多个模型平均下来,假设有n个独立同分布的模型,每个模型的方差为σ²,则利用上文中方差的性质(16)和(17)可得(18)。这样模型均值的方差仅为单模型方差的1/n,然而在只有一个数据集的情况下只能训练出一个模型,也就没法求平均。所以为了缓解这个问题,采用有放回抽样来模拟生成多个数据集,将每个数据集训练得到的模型平均来降低方差,即是Bagging的基本思想。然而,Bagging的抽样是有放回抽样,这样数据集之间会有重复的样本,因而违反了公式 (18) 中的独立性假设。

在这种情况下,设单模型之间具有相关系数0<通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_13<1,则集合模型的方差为:

(19VARX

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_14


随着n增大,第一项趋于0,第二项趋于通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_15,随着分类器数目的增加或单个模型之间的相关性降低,集成模型的方差进一步减小。

基于以上观察结果,我们提出采用非对称bagging算法来实现这一目标。

在S数据集中,非对称bagging算法的工作流程如下:

1初始化:将所有蛋白质结合位点的样本组成集合Sp,将非结合位点的样本组成集合Sn。

2迭代采样:在每次迭代中,从集合Sn中随机选择与集合Sp大小相同的子集Sn',保持样本之间的尺度相同。这一步骤使用无替换采样,确保每个样本只被选取一次。重复这个采样过程直到所有样本都被覆盖,从而得到多个子集Sn'。

3训练分类器:使用每个子集Sn'训练一个分类器,得到多个独立的分类器模型。每个分类器使用不同的数据子集进行训练,以获得不同的模型表示。

4预测集成:对于待分类的样本,使用每个分类器模型进行预测,得到多个Softmax值。然后将这些Softmax值进行求和,得到最终的识别决策。通过对多个模型的预测结果进行集成,可以得到更可靠和鲁棒的分类结果。

非对称bagging算法的优势在于保证了每个模型输入数据的均衡分类分布,同时尽可能降低模型之间的相关性。这种方法可以提高模型的稳定性和泛化能力。值得一提的是,集成模型可能会增加计算复杂度,但在非对称bagging算法中,由于可以并行处理不同的分类器,当有足够的计算资源时,可以有效减少运行时间。

3主要实验及结果

EDLMPPI可以为描述蛋白质序列提供一种更有效的方案

在该研究中,使用了多通道策略来结合不同的特征信息,具体而言,研究者采用了两组特征作为模型的输入:多源生物特征(MBF)和ProtT5。其中MBF包括蛋白质残基的进化信息、物理特性和物理化学特性等多种特征信息,将MBF和ProtT5的特征向量进行拼接,并进行归一化处理。

在MBF算法中,采用了滑动窗口机制对每个残基的局部上下文信息进行编码,这种机制有效地防止了模型的过度拟合,提高了模型的泛化能力。此外,对于窗口大小为n(n为奇数)的MBF模型,中间最多的氨基酸是待预测的目标氨基酸,滑动步长为1。为了确定MBF中的最优窗口大小,研究者评估了不同窗口大小的MBF模型在评估集合{5,11,15,21,25,33}上的性能。以Dset_448为例,总结了不同窗口尺寸的实验结果。显然,当窗口大小为25时,该模型获得了AP、AUROC和MCC等几个关键指标测量的最佳性能。然而,当窗口大小为31时,算法的整体性能下降,这表明窗口越大并不总是越好。因此,在我们的研究中,我们选择25的窗口大小作为最终大小。

KMER三15AUPRCAUROCKMER=31KMER三250.7880.4090.4560.4740.752KMER三50.8190.7860.755KMER=210.2860.4530.4130.9230.7540.2630.4140.9380.3630.8190.3780.8090.2730.3740.3280.3280.3640.9380.4570.4110.8060.4280.2760.3180.9430.8130.8740.3850.9280.4380.3280.3230.3830.2770.4780.8590.4820.4510.9120.330.4840.3290.916MCC0.4560.9380.3280.3770.324KMER=110.380.330.3290.93704530.4640.9210.9320.2590.3790.7830.4170.2590.9270.460.7530.460.3270.860.820.4520.8170.290.450.7870.860.870.9240.3730.3640.4770.8620.30.490.380.4110.3450.3261860.4640.870.2820.4640.4580.8570.3750.3030464480.260.3330.3020.9170.7520.3740.9220.263SPEC0.8190.8110.276ACC0.4670.3830.7870.8580.8111860.3064480.4560.4730.7850.3660.3840.34480.820.450.440.9371860.4680.7510.8720.9230.3670.312720.81448NCEENS0.87PRE0.9220.2710.32344872F10.331861860.4060.8718644872727272

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_16


此外,为了进一步该研究中提出的特征描述符的优越性,将EDLMPPI中的组合特征分别与包括MBF和ProtT5在内的单一特征描述符进行了比较。实验结果列于表1和图2B中。

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_17


通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_18


可以观察到,在所有三个数据集上,结合MBF和ProtT5的特征大大优于单独的特征描述符。事实上,对于经常用于评估不平衡数据的评估指标AP,组合特征在三个数据集上分别超过了MBF,并且分别比ProtT5高1.8%、3%和2.9%,这表明组合特征丰富了蛋白质的表达并提高了模型的性能。

此外,当比较Prot5和MBF时,还发现在这三个数据集中,Prot5的AP值分别比MBF高10.7%、11.2%和8.6%,揭示了动态字嵌入编码在蛋白质-蛋白质结合位点预测中的有效性。原因可能是ProtT5更好地捕捉了标记训练数据中氨基酸(结合位点和非结合位点)之间的差异,而MBF很难根据进化信息和其他生物学功能区分氨基酸特异性。

将ProtT5与其他蛋白质语言模型进行比较

为了进行公平的比较,我们用ESM-1b和ProGen2学习的嵌入表示替换了ProtT5学习的嵌入表示。表2总结了实验结果。

TABLE2PERFORMANCECOMPARISONUNDERDIFFERENTPROTEINLANGUAGEMODELSDSET_164DSET_448ESM-1BDSET_720.738PROGEN20.3680.6780.6620.4480.4550.3360.1990.6780.7700.1470.8520.226PROGEN20.2530.2870.3490.220PROTT50.3070.6580.2460.7250.9160.2340.7590.6840.5680.6740.6520.8100.2180.154PROGEN20.5540.7150.3030.6170.2640.714ESM-1BPROTT50.3240.2510.5760.6020.9080.3520.366ESM-1B0.2110.7580.6900.4950.2290.542PROTT50.3360.4420.375UROC0.2610.248.3080.4360.8480.4510.3580.7320.1760.3000.1530.3840.2880.740MCC0.9090.3190.800TNR0.4270.650PREACCTPRAP

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_19


我们观察到ProtT5在AP和AUROC方面优于ESM-1b和ProGen2,表明ProtT5更适合描述蛋白质-蛋白质结合位点的氨基酸序列。

EDLMPPI能够有效地处理数据不平衡导致的过拟合问题

由于结合位点上的残基数量只占总数的十分之一,这种不平衡的数据推动模型训练专注于主要类而忽略次要类,导致模型的过度拟合。为了解决这个问题,我们使用集成深度学习来解决不平衡数据集类别的倾斜分布。

为了考察集成模型的性能,我们将它与其他三种不同的不平衡数据处理算法进行了比较,包括在这三个数据集上的代价敏感模型、随机过采样和随机欠采样。具体而言,代价敏感模型是通过给不同类别的样本分配不同的权重来调整损失函数,从而关注次要类别的分类性能。随机过采样是通过复制或生成次要类别的样本来增加其数量,从而使不平衡数据集的类别分布更加均衡。而随机欠采样是从主要类别中随机删除样本,以减少其数量,从而使不平衡数据集的类别分布更加均衡。实验结果汇总在表3和图2D中。

N6LEORITHMNERFORMANCEWITHDFFERENTUNBALANCEDDATASETPROCESSINGSTRATEGIESTABLE3COMPARISONOTABORIUCOST-SENSITIVENDERSAMPLERCOST-SENSITIVECOST-SENSITIVE0.404OVERSAMPLER0.298OVERSAMPLER0.788OVERSAMPLERENSEMBLEUNDERSAMPLER0.9780.5700.1340.8680.787NDERSAMPLE0.741UROC0.418DSET4480.783ENSEMBLEENSEMBLE0.4040.4040.8250.4120.4130.4010.8270.9160.3770.3780.3230.7550.2840.318DSET_1640.8090.343DSET720.9380.4600.7380.8700.7440.3800.8720.2770.3150.7610.2430.5650.2910.4520.2130.2740.3040.2700.3980.3050.8070.4390.4350.4640.7250.7750.3300.7790.3430.3450.4440.7780.4640.7780.809NONE0.8830.3500.3860.7690.7790.4300.8700.5870.5490.2760.4150.9630.8500.7420.2300.9050.2810.3980.2090.2170.4270.8430.3830.8090.4520.2610.3810.2710.4250.9220.8580.4620.3250.4770.8500.2970.7620.7980.3690.4600.4910.2740.336NONE0.4310.8980.459MCC0.8070.8260.4330.601TPR.3530.2930.6520.8200.3630.873ONE0.197AP0.979ACCF1

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_20


OVERSAMPLERUNDERSAMPLERCOST-SENSITIVEENSEMBLE万OVERSAMPLERCOST-SENSITIVENONEUNDERSAMPLERENSEMBLEMETHODNONE0.5

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_21


总的来说,集成模型的表现最好,获得了更高的MCC、AUROC和AP值。表明非对称bagging算法具有更好的泛化性能。

在三个数据集上,随机过采样方法的平均精度分别为43.9%、31.5%和40.4%,相对于集成学习方法来说较低。这可能是因为过采样方法破坏了特征之间的依赖关系,限制了模型发现特征间相关性的能力。

值得注意的是,欠采样方法可以被认为是集成深度学习模型的一个子模型,与集成学习方法相比,它在所有三个数据集上的AUROC和AP得分都落后1.1%到3.9%。

综上所述,基于非对称bagging的集成深度学习模型通过相对减轻不平衡数据集的影响,确保算法的执行效率,并提高算法的识别性能。

比较了EDLMPPI和不同的机器学习和深度学习算法

为了验证改进的EDLMPPI结构的有效性和复杂性,我们使用相同的特征描述符将其与其他五种机器学习方法和五种深度学习模型进行了比较,这些机器学习模型为XGBoost、LightGBM、CatBoost、SGD分类器、MLP,这些深度学习模型包括TextCNN、Single-Capsule、BiLSTM、BiGRU和MultiHead Attention。图2C和表4描述了不同算法在所有三个数据集上的实验结果。

喜营舍曼居店新营品品品多金造电富直皇食建点92XGBOOSTWINDOWSSIZE-2S86CATBOOSTCATBOOST86GWINDOWSSIZE-15CAPSULE87.1TEXTCNNLSTM8G.GRU88.1WINDOWSSIZE-2LAURGWINDOWSSIZE-3LLGBM86.WINDOWSSIZE-05SBOOST88.6MCCF1STMEDLMPPISLTIHEAEDLPPIAUROC7LGBACCLTIHEADBB.EGROUPNRWINDOWSSIZE-MCCSCSGDMLPTPRAPGRU.AACCMLPA国R0EGDNANRTEXTCNN品ITIHEAF1APSS

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_22


A,,P,-4CWAWRAN6TFPENTMACHTNALEANINGMETHODSANDDEPLEARNINGMETHODSONDSET48,DSET72,ANDDSET164.TEXTCNNEDLMPPICATBOOSXGBOOST0.2700.2830.5040.8290.8780.8260.799MULTIHEA0.3780.8290.2560.8760.2770.8190.7590.2740.4150.3410.5010.7920.3400.7510.4250.2530.524LGBM0.2470.3360.809TABLE4PERFORMANCEOFDIFFERENTMACHINELEARNINGMETHODSANDDEEPLEARNINGMETNCAPSULE0.2820.3640.878DSET_4480.8650.8300.4770.2890.812GBOOST0.2460.3050.439CATBOOST0.2500.396DSET1640.8180.886ATBOOS0.743TEXTCN小0.916TEXTCNCAPSULE0.2590.7970.7600.330MULTIHEAXGBOOST0.2930.7730.3800.4180.4010.7810.2790.3230.4050.3260.4470.460MULTIHEAD0.751.4330.4200.8300.2910.3380.8800.3940.4980.4800.8040.7790.3540.4190.4230.3740.4800.2490.868GRU0.4250.8300.4300.4170.4130.8200.2790.442LSTMDSET_72LGBM0.2740.3420.4310.4380.4050.4540.7480.8520.3300.4250.7740.7760.4660.7990.3080.7860.7850.7470.8580.5760.7810.4780.4140.755AUROC0.468APSULE0.4300.853EDLMPPI0.7490.7410.3300.3470.2930.8550.7810.3350.4270.5440.7220.2440.496LSTM0.8690.7330.7590.3590.7590.4210.3640.3640.2740.9380.4120.8320.3750.2760.3980.7230.8190.3830.8360.8380.9400.9000.3770.5240.3480.3580.8930.2910.4010.3990.2630.4150.3880.4480.3640.8550.4770.2460.7990.8430.7410.4090.7280.8430.8340.7920.361MLP0.7300.7510.4190.7860.2400.8810.3950.3160.4190.3740.3360.4640.410LSTM0.5210.4430.2950.8880.5530.4060.2880.2790.8260.8150.2390.9000.7200.8700.5400.7880.8150.4600.4480.4470.7190.2680.9220.3470.4700.285SGD0.4100.4310.411TNR0.5370.2800.3120.5340.8810.3300.3950.3080.394EDLMPP0.3010.3770.255SGD0.759SGD0.3720.3600.409LP0.4190.3180.416MCC0.8710.3710.4540.4550.881GBM0.2960.4570.3450.2630.8060.4520.7770.362TPR0.4040.7970.8220.7650.7560.8350.8260.3780.2600.711GRU0.8210.8150.4490.4220.4800.872GRUMLPAP

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_23


从结果可以看出,我们提出的模型在所有三个数据集上都比其他五种机器学习算法具有更好的性能。特别是,在DSET_448上,EDLMPPI在三个数据集上的平均AUROC和平均AP的性能分别比机器学习方法高2.1-3.4%和3.0-6.2%,表明EDLMPPI的预测能力有了很大的提高。从结果来看,深度学习方法的综合性能优于传统机器学习方法,表明深度学习方法可以更好地探索蛋白质序列和结构之间的潜在联系,从而提高了对蛋白质结合位点性能的预测,进一步证明了EDLMPPI的有效性。

其中我们看到EDLMPPI在三个数据集上的表现相对好于其他深度学习模型,分别比排名第二的多头注意力模型高1.2%、2.2%和1.2%。此外,TextCNN性能明显弱于其他几个深度学习模型,这与我们的预期一致,即CNN结构只提取了局部特征,破坏了Prot5的上下文嵌入的完整性。此外,LSTM和GRU在Dset_448和Dset_72上的性能相当,但LSTM在Dset164上的性能优于GRU,这是选择LSTM来学习最终模型EDLMPPI中的长期依赖关系的原因。

将EDLMPPI与其他PPI预测方法进行比较

为了进一步检验EDLMPPI带来的进步,我们将其与目前十种PPI预测方法进行了比较,这些方法包括SPPIDER、SPRINT、PSIVER、SPRINGS、LORIS、CRFPPI、SSWRF、DLPred、SCRIBER和DELPHI。我们采用TPR、TNR、PRE、ACC、F1、MCC、AUROC和AP作为评价标准,MCC、AUROC和AP作为评价不平衡数据常用模型优劣的重要决定因素。预测结果汇总在表5和图3A中。

ABLE5PERFORMANCECOMPARISONOFTHEDIFTERENTPREALLCTORS.EDLMPPISPRINGSDELPHIDSET_72SPPIDERSSWRFCRFPPLSCRIBERSPPIDER0.263SPRINT0.8050.4640.8910.6870.2870.922LORIS0.2560.2860.858PSIVER0.4770.3320.8960.9010.8200.460.263DSET1640.1980.2280.8870.1540.7960.829DSET4480.3830.898EDLMPPI0.1780.2660.2720.2640.3330.1910.781SPPIDER0.5170.8050.159.2300.7830.8110.6810.371SCRIBER0.4520.2460.8400.887EDLMPPI0.6780.7370.238SSWRF0.1700.7810.522CRFPPLSSWRF0.337PS小VER0.5810.2020.8820.229PSIVER0.3710.2280.823UROC0.1580.7150.0660.8400.9110.2880.1830.0840.2090.1910.3710.3230.0900.2010.2580.8210.9110.327DELPHIDLPRED0.191DLPRED0.2480.1570.2460.1790.1510.2320.2670.2460.8090.8730.345SCRIBER0.6080.1940.656DELPH0.1830.7260.0520.3380.20(0.8260.1410.1670.280.2800.3380.7160.0710.2640.4600.0570.2680.1980.148.3340.1210.7880.851.1880.1830.6850.276.2740.9090.1830.8410.1520.3270.8280.2170.8200.2480.1790.8720.253.2460.6720.2800.9160.2160.8700.7390.734.2290.6690.1410.2200.3300.8260.3010.938.2480.1030.3520.8990.5700.6880.5280.6040.1340.2800.7560.1520.2740.2160.2640.6570.266MCC0.3320.765.3520.1520.9010.2740.8740.2660.2370.352CRFPP0.6250.0430.8470.837TPRTNR0.7600.6060.3770.2320.266.2320.9140.2430.8570.8540.2150.2460.3270.1920.189.2460.5540.6800.111ACC0.7110.3300.2770.3800.8380.1980.2050.338.3180.7550.413

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_24


COMPARISONOFINDICATORSOFDIFFERENTMETHODSFFIGNE10.00.70.00)=3.30,P0.002,W=004,CLES%[0.00,1.00],NPAIRS24ETHODPPIDERCRIBERRDLMPPPRINGSDELPHIDLPREDLMEAN=0.4SIVERRFPPIPRINTAN-0.409AN一0.49(0三24)N24)(0二16)0三24)0三24)(N三8)N三24G-0.42(N三24)SWRF一0.51(N三8)0.50MAN-0.39N三240.250.46.00一-0.46

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_25


我们看到,在大多数评价指标上,EDLMPPI都优于其他PPI预测方法,在三个数据集上的AUROC分别为82.0%、78.8%和75.5%,显著高于Delphi方法的73.7%、71.1%和68.5%。EDLMPPI的AP值在三个数据集上分别比Delphi高出12.3%、9.3%和8.1%,带来了相当大的改善。

这似乎是因为EDLMPPI能够基于Transformer架构的自注意力机制来解决氨基酸的长距离依赖问题,充分挖掘了全局上下文特征和语义信息,表明我们提出的深度学习框架为准确分类提供了重要贡献。此外,我们还融入了多源的生物学特征,以弥补ProtT5可能的缺点,从而进一步提高识别性能。值得注意的是,EDLMPPI在DSET_448数据集上表现出了更高的优势,比较了全长序列,表明我们的特征提取方法在完整蛋白质序列的功能表达方面可能更好、更准确。总体而言,EDLMPPI大大领先于现有方法,可以作为蛋白质相互作用位点注释的补充工具。

4分析

可解释性分析

为了研究EDLMPPI体系结构的有效性,我们提取了模型在不同阶段的中间层输出,并将它们映射到二维空间进行集群。

如图4a,T-SNE图显示了EDLMPPI架构中不同中间层的输出。我们看到,原来的嵌入是随机分布的,而在BiLSTM层之后,可以看到更明显的聚集效应。

胶囊层进一步保留了关键的分类特征,结合位点和非结合位点以单独的簇形式出现。最后,经过Softmax函数的处理,实现了准确的辨识。

BI-LSTMCAPSULEOUTPUTPROTTSNO-BIND.NO-BINDING

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_26



此外,我们还探讨了不同的特征对蛋白质-蛋白质结合位点识别的贡献以及相互作用关系。图4b显示了对PPI识别有最大影响的20个特征,并揭示了它们分别在预测非结合位点和结合位点方面的作用。

SHAPVALUE(IMPACTONMOOEOUVALUE(IMPACTONMODELOUTPUT)EATURE1027FEATURE2GFEATURE33FEATURE4O7FEATURE61FEATURE616FEATURE56FEATURES6GFEATURE75FEATURE1027FEATURE33FEATURE35FEATURE73万FEATURE5FEATURE887FEATURE8GFEATURE79FEATURE525FEATURE285EATURE29FEATURE4CFEATURE7B0FEATURE5O1FEATURE285FEATURE5FEATUREG5BFEATURES61EATURE569FEATURE35道FEATURE7S7FEATURE73EATURE780FEATURE43GEATURE524-0.2000.20.4SHAPVALUE(IMPACTATURE793

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_27


红色代表较高的特征值,而蓝色代表较低的特征值。以特征1027和33为例,较高的特征1027倾向于将样品分类为结合部位,而较高的特征33更有可能将样品分类为非结合部位。与单一特征对模型的影响相比,特征之间的交互作用更为重要。


图4c显示了特征1027和特征569与其他特征之间的交互作用。注意到特征1027与其他特征没有显著的相互作用,这与我们的判断一致,即特征1027代表溶剂可及性,并被编码为长度为1的矢量,而不太依赖于其他特征。特征569和72之间表现出较强的相关性,当特征569的值较低时,特征72对分类的影响减弱。这源于ProtT5包含全局上下文依赖,特征的表达是基于与其他特征的联合作用,这进一步验证了ProtT5的有效性。

03-02-0.10001020304050Z20304050607080.9FEATURE569FEATURE10270.156-0.10二0.020.250.040.010.200.020.00

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_28



图4d是显示每个特征对每个样本的影响的叠加图,这允许我们观察哪些特征影响样本的识别。

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_数据集_29


为了更深入地了解EDLMPPI的工作原理,我们研究了ProtT5嵌入可靠性的内部过程。首先,我们选择了一个完整的蛋白质序列,并使用ProtT5进行了编码。对于每个氨基酸嵌入载体,我们用皮尔逊相关系数来描述残基之间的相关性。


在图5a中,我们看到每个氨基酸总是与靠近它的氨基酸有很强的相关性,但随着距离的增加,ProtT5仍然可以捕获氨基酸之间的关联,这意味着ProtT5平衡了局部影响和长期依赖。

9121518212427303336394245485154576063666972757881848790939699大福0.050.200.000.300.100.100.150.050.25

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_深度学习_30


为了进一步深入这个过程,我们应用Bertviz来可视化ProtT5中的每个注意力头部和每一层,结果如图5b,c所示,其中不同的颜色代表不同的注意力头部,线条的饱和度代表注意力分数。

11号生川山路1/S></S>天S></S>三工工车2.三三一S工01三艺K</S>公上S>/SSE一京Q长十NAKE

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_31


图5b(a)显示了所有注意力头部的第一层注意力,类似于完全连接,这意味着对于每个残基,所有注意力头部都试图找到与其他残基的目标的关联。表明ProtT5模型使用全连接的注意力机制来将所有残基的注意力聚集在一起,强调整个序列的一致性和相互作用。这为模型提供了更全面的序列表示和更准确的预测能力。

图5b(d)清楚地显示了不同注意力头部中目标氨基酸的流动,验证了我们之前的说法,即更高的注意力权重表示更接近的相关性。


图5c可视化了不同层中每个注意力头部的演变,随着层的加深,注意力模式从关注不同氨基酸之间的联系转移到传递氨基酸序列的表达。

FXXXKN

通过可解释的集成深度学习学习蛋白质组范围内蛋白质结合位点的蛋白质语言_方差_32


总之,ProtT5可以从局部到全局探索蛋白质水平结构与其功能之间的联系,为EDLMPPI有效预测蛋白质-蛋白质相互作用结合位点提供了合理的解释。

5结论

总的来说,我们提出了一种基于集成深度学习模型的蛋白质相互作用(PPI)位点识别方法,即EDLMPPI。该方法的主要特点包括:

采用基于Transformer架构的ProtT5作为蛋白质语言模型,以充分利用每个氨基酸的全局上下文关联,然后加入11个额外的特征描述符来进一步丰富特征表示。

模型框架由BiLSTM和胶囊网络组成,其中BiLSTM可以全面地学习蛋白质序列正向和反向的特征,并且胶囊网络可以进一步发现特征之间的相关性。为解决数据集不平衡,采用非对称bagging的集成学习方法。

EDLMPPI在Dset_448、Dset_72和Dset_164三个广泛使用的基准数据集上表现出比其他最新的PPI站点预测模型更好的性能。它的AP(平均精度)比其他模型高出近10%。这表明EDLMPPI在蛋白质相互作用位点预测方面具有显著的优势。


讨论过程


总结

优点

采用基于Transformer架构的ProtT5作为蛋白质语言模型,以充分利用每个氨基酸的全局上下文关联,然后加入11个额外的特征描述符来进一步丰富特征表示。

模型框架由BiLSTM和胶囊网络组成,其中BiLSTM可以全面地学习蛋白质序列正向和反向的特征,并且胶囊网络可以进一步发现特征之间的相关性。为解决数据集不平衡,采用非对称bagging的集成学习方法。