Protein Ising Model Problem
1.预备知识
- 蛋白质都是由20种不同的L型α氨基酸连接形成的多聚体,在形成蛋白质后,这些氨基酸又被称为残基。
- 蛋白质的分子结构可划分为四级,以描述其不同的方面:
- 蛋白质一级结构:组成蛋白质多肽链的线性氨基酸序列。
- 蛋白质二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠。
- 蛋白质三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。
- 蛋白质四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。
- 测定蛋白质序列比测定蛋白质结构容易得多,而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。
- 获得蛋白质序列数据要比获得结构数据简单得多, DNA测序技术的突飞猛进更使得可直接通过翻译、推导得到大量的蛋白质序列. 而目前蛋白质结构数据库 PDB中所存储的蛋白质三维结构主要通过X 射线晶体衍射和核磁共振成像技术得到, 两种实验方法均成本不菲, 且有各自的应用局限.
- 截止2016年 5 月, PDB 数据库中存储了11万余条蛋白质结构 数据, 而这只占UniProt中所有蛋白质序列数据的 1/600, 也就是说只有不到0.2%的蛋白质序列拥有 实验测定的三维结构。
- 常见蛋白质分类:
纤维蛋白(fibrous protein)
一类主要的不溶于水的蛋白质,通常都含有呈现相同二级结构的多肽链许多纤维蛋白结合紧密,并为
单个细胞或整个生物体提供机械强度,起着保护或结构上的作用。
球蛋白(globular protein)
紧凑的,近似球形的,含有折叠紧密的多肽链的一类蛋白质,许多都溶于水。典形的球蛋白含有能特异的识别其它化合物的凹陷或裂隙部位。
角蛋白(keratin)
由处于α-螺旋或β-折叠构象的平行的多肽链组成不溶于水的起着保护或结构作用蛋白质。
胶原蛋白(collagen)
是动物结缔组织最丰富的一种蛋白质,它是由原胶原蛋白分子组成。原胶原蛋白是一种具有右手超螺旋结构的蛋白。每个原胶原分子都是由3条特殊的左手螺旋(螺距0.95nm,每一圈含有3.3个残基)的多肽链右手旋转形成的。
伴娘蛋白(chaperone)
与一种新合成的多肽链形成复合物并协助它正确折叠成具有生物功能构向的蛋白质。伴娘蛋白可以防止不正确折叠中间体的形成和没有组装的蛋白亚基的不正确聚集,协助多肽链跨膜转运以及大的多亚基蛋白质的组装和解体。
肌红蛋白(myoglobin)
是由一条肽链和一个血红素辅基组成的结合蛋白,是肌肉内储存氧的蛋白质,它的氧饱和曲线为双曲线型。
血红蛋白(hemoglobin)
是由含有血红素辅基的4个亚基组成的结合蛋白。血红蛋白负责将氧由肺运输到外周组织,它的氧饱和曲线为S型。
蛋白质变性(denaturation):生物大分子的天然构象遭到破坏导致其生物活性丧失的现象。蛋白质在受到光照,热,有机溶济以及一些变性济的作用时,次级键受到破坏,导致天然构象的破坏,使蛋白质的生物活性丧失。
复性(renaturation):在一定的条件下,变性的生物大分子恢复成具有生物活性的天然构象的现象。
别构效应(allosteric effect):又称为变构效应,是寡聚蛋白与配基结合改变蛋白质的构象,导致蛋白质生物活性丧失的现象。
- 具有相似性序列的蛋白质具有相似的功能。因此,最好确定蛋白质功能的方法是进行数据库的相似性搜索。
- 许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的预测,还有不少小的序列模体(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。
- 基因承载了生命的遗传信息,生命的功能则是藉由蛋白质执行的;蛋白质是由20种氨基酸组成的肽链,而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能,但折叠是如何自发形成的呢?氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折叠和重折叠过程,发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构,认为蛋白质链会以自由能最低的方式形成三维结构,由此推测蛋白质的折叠密码隐藏在氨基酸排序中,即所谓的安芬森原则:蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”,安芬森获得1972年诺贝尔化学奖。
- 蛋白质结构的密码隐藏在序列中,那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说:“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里,设计一套程序,让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行,那么就可能通过计算机自动预测出蛋白质的结构,这几乎是免费的。”
- 然而,用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多,包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。
- 物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理,蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数,因此寻找这种最低自由能所代表的结构。
2.具体问题
首先,给定一个蛋白质的空间结构和序列信息,由上面的预备知识可知,两者是相关的,因为一种序列会根据最低的自由能形成唯一的结构。这里假定给出的蛋白质是5P21,我们可以通过PDB和其他渠道获得其信息。
能量计算公式如下:
其中表示序列的第i个位置的字符,是个指标,表示是否蛋白质折叠时,位置i和j上的残基的原子小于6个埃。是一个来自于真实世界的蛋白质广泛使用的联合概率(见下图,参考:Residue–residue potentials with a favorable contact pair term and an unfavorable high packing density term, for simulation and threading)。在序列中的所有位置都使用相同的20x20的联合概率表,因此,蛋白质间能量函数的差异仅由它们不同的接触图结构决定。这里将局部项设置为零。
我们会根据序列上残基的距离信息先生成一个连接图,具体的说,当两个残基距离小于6个Cα原子距离埃时,我们认为这两个残基是相互连接的。所以我们可以生成如下连接图:
至此,我们给定的一个蛋白质空间结构,我们可以设计一个离散序列优化问题,其中每个序列的每个位置上决策变量都是20个氨基酸的其中一个。优化上式,得到最小折叠能的序列,最后可以将这个序列与真实序列进行比较。
返回贝叶斯优化优秀论文总结目录