做一个生物信息的笔记吧。

蛋白质的生物功能的预测已经成为了蛋白质组学中的一个最终目的。蛋白质的空间结构决定了蛋白质的生物学功能,因此,了解蛋白质的空间结构有助于了解蛋白质的生物学功能以及蛋白质如何行使这些功能。然而到现在为止,蛋白质的三级结构预测依然是一个十分有挑战性的任务。蛋白质三级结构的难点主要在于从氨基酸序列直接预测蛋白质的三级结构。幸运的是,经过科学家们长时间的研究发现,蛋白质的二级结构作为蛋白质分子的重要组成部件,能够充当通过氨基酸序列预测蛋白质三级结构的桥梁,可以先准确地预测出蛋白质的二级结构,再将预测出的蛋白质二级结构信息用于预测蛋白质的三级结构。可以说要准确预测蛋白质的三级结构,预测蛋白质的二级结构已经成为了一条必经之路。

  标题里提到的深度卷积神经域是直译过来的。。不知道正确应该叫什么--原文是Deep convolutional neural fields.

蛋白质的空间结构形态会很大程度上影响和其他分子的相互作用,因此蛋白质空间结构会对药物和酶的制造和设计产生至关重要的作用。

----因此,只通过氨基酸序列来预测蛋白质的结构能够让虚拟仿真和可能产生的人造分子只通过氨基酸的位置就能够进行,这样可以大大加速药物设计的进行。

DeepCNF --将  深度卷积神经网络 和 条件随机域 进行连接,可以使对蛋白质二级结构的预测上升到一个新的顶尖的准确率。

正文和先行研究:

  分类器的任务是一个从序列到序列的问题---

  1)输入特征值是描述了每个氨基酸在蛋白质肽链位置的序列

  2)输出序列是蛋白质的二级结构(有两类,分别为3-state和8-state,代表了不同形状)

 

  其实,本文提到的DeepCNF也是一个跟随潮流的产物,它也是将神经网络的概念使用到了蛋白质结构的预测上。

  1.第一个成功的方法案例需要回溯到1980年代,到了1993年,一个2层的前馈神经网络成为了第一个能够在3-state problem上达到70%准确率的算法。

    2.到了1999年,PSIPRED技术通过将PSI-BLAST序列作为改进后的输入特征和另一个简单的 2层神经网络 达到了80%的正确率。

  3.在DeepCNF算法发布之前,PRIPRED技术在这方面的王座上坐了有长达15年之久。

  4.基于模板的预测方法利用已知的蛋白质结构能够把分类准确率提高到80%,但是这种方法通常不被使用,因为许多蛋白质的模板都还是未知的。所以我们需要一些不用依靠这些已知条件的方法。

 

方法论:

  DeepCNF 模型 包括两个模块:1)一个深度卷积网络来从氨基酸序列输入中提取特征

                               2)一个条件随机域来模型化输入特征和加了标签的结构之间以及结构和结构之间的相互作用

   影响蛋白质二级结构预测的一个十分重要的因素之一是蛋白质序列特征提取算法,事实证明采用不同的序列特征提取算法会对蛋白质二级结构的预测产生十分大的影响,因此研究者都把改进蛋白质序列特征算法作为提高准确率的一个十分重要的途径。

    CNN的输入是position specific scoring matrices(位置特异性打分矩阵),输入特征是由PSI-Blast生成的。

    CNN部分---默认是一个五个卷积层的网络,每层都有一个默认长度为11的滑动窗口和100个filter。

    窗口长度默认为是因为目前最大的蛋白质二级结构--螺旋结构,就大概是11个氨基酸的长度。但是目前倒是可以有一个非常有趣的尝试,那就是试着增加滑动窗口的size,这样可以考虑到多个二级结构之间的互相影响。增加窗口长度可能会让算法降低对没有经过完全PSI-Blast处理的输入特征的依赖程度,这也是DeepCNF正在努力去实现的事情。论文作者还说之后可能会用ReLu替换掉现有阶段卷积层在用的sigmoid和tanh激活函数。

 

     CNN的输出作为了CRF的输入,CRF用两个势函数来模拟结构标签和CNN输出之间的关系。

二级星型架构_卷积

T,U,W都是需要训练的参数。

             这个CRF部分的一个缺点就是ψ函数只模拟了相邻的结构标签之间的关系,可以增加一些计算复杂性来改善这个问题--将一个RNN网络作为输出层,这样就可以将长距离的多个结构标签之间的互相作用考虑进来。

             在DeepCRF模型中,没有用到dropout,但dropout已经在许多深度网络中显现出了它能减少过拟合的问题,所以将它应用在DeepCRF中也有提高准确率的可能。is likely worth trying.

 

对模型的测试:

  用3-state和8-state分类问题和不同的数据集对模型进行了测试实验,在排除了模板信息的情况下,在训练过程中DeepCRF比PSIPRED以及更加先进都有更好的表现,而且测试蛋白质也比以往的都有更加迥异的氨基酸序列,这也说明DeepCRF算法确实较一般算法更具有普遍性。

 

未来可能进行的改进:

考虑到蛋白质结构问题中的序列到序列的性质,用某种形式的RNN代替该结构中使用的CRF似乎更自然,RNN可以更好地建模输出序列中的长距离依赖关系。

       近期有一篇论文叙述了一个结构,这个结构将DeepCRF结构中CRF的部分用一个双向RNN代替,并将RNN的输出输入一个全连接网络来最终得到一个结果。CNN/RNN混合的神经网络最开始是为了结合图像处理和NLP而开发的,所以将这些混合网络应用在蛋白质结构的预测中也是情有可原的。

       未来可能还会在正在快速发展的基因组序列CNN中寻找灵感。通过使用更加完善结构的神经网络进行蛋白质二级结构的预测,能够减少对PSI-Blast处理后的input的依赖,从而提高蛋白质二级结构预测的普遍性。

相关知识介绍:

蛋白质结构:

  • 一级结构:组成蛋白质多肽链的线性氨基酸序列。
  • 二级结构:依靠不同氨基酸之间的C=O和N-H基团间的 氢键形成的稳定结构,主要为 α螺旋β折叠
  • 三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
  • 四级结构:用于描述由不同多肽链( 亚基)间相互作用形成具有功能的蛋白质复合物分子。

 

一维方向具有周期性结构的构象。

  研究蛋白质的二级结构能够帮助更好的预测蛋白质的三级结构。

   --filter:文中提到的filter都是指卷积核。

势函数:

       势函数的构造是人工势场方法中的关键问题。势函数其值为物理上向量势或是标量势的数学函数,又称调和函数,是数学上位势论的研究主题,同时在平摊分析(amortized analysis)的势能法中,用来描述过去资源的投入可在后来操作中使用程度的函数。

 

Dropout:

   dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。

---恢复内容结束---