Python获取基因序列 python编辑基因

转载

karen 2024-04-22 22:55:21

文章标签 Python获取基因序列 python 算法遗传算法计算机系统 文章分类 Python 后端开发

1. GEP简介【★】

基因表达式编程GEP(Gene Expression Programming)是一种基于生物基因结构和功能发明的一种新型自适应演化算法。GEP 是从遗传算法（geneticalgorithms ,简称GAs）和遗传程序设计（genetic pro2gramming ,简称GP）中发展而来，它在吸收了二者优点的同时,又克服了二者的不足之处，其显著特点就是可以利用简单编码解决复杂问题。

2. 生物学基因表达式实体【★】

2.1. DNA

DNA 的分子是由四种核苷酸（分别用A，T，C，G来表示）构成的长线性串。每个DNA 分子实际上是一条双螺旋链，其中每条链与另一条链形成互补关系，因此，增加一条单链不会增加任何信息。在这个双链的结构中，A与T配对，C与G配对(如图1.1)。

Python获取基因序列 python编辑基因_Python获取基因序列

图2. 1 DNA分子双链中的基对。其中G和A配对、C和T配对。

简单来说，DNA可以看作一个由四种不同字符构成的长链（A，T，C，G)，其中字符的序列构成了遗传信息。遗传信息或者说地球上所有生物体的蓝图都被写在由这四个字符构成的DNA语言里面。

2.2. RNA

当一个蛋白质基因被表达时，基因的某个副本以信使RNA(mRNA）的身份被产生出来并用来指导蛋白质的合成。信使RNA并不是细胞中唯一一种起作用的RNA分子。尽管在信息解码中起到中心作用，mRNA在结构上显得十分单调。下面讨论的结构多样性是其它的RNA类别的典型情况，也就是转移RNA ( tRNA）和核醉体RNA （rRNA)。

和 DNA一样，RNA 的分子也是由四种核苷酸（核糖核酸，在这里是A，U,C和G)构成的长链。与 DNA不同，RNA分子是单链的，而且其中有些分子可以在一个唯一的三维结构中堆叠起来。RNA 分子能够堆叠的一个原因就是由于短的序列存在，这些短的序列与同一分子中的其它序列形成互补。显然，如果这些互补的序列能够相遇，就会生成短的双螺旋。这些分子间的双螺旋就是某些RNA分子唯一的三维结构所必需的。

因此，像蛋白质一样，许多RNA分子可以有一个唯一的三维结构(三级结构)，并因此表现出某种程度的结构多样性和功能多样性。RNA’双螺旋结构中的互补规则与 DNA十分类似，A与U配对，C和G配对。在含有三级结构的RNA分子中，有些核苷酸参与螺旋构成而且因此不具有化学作用,但是其它一些功能组则不受限制地可以参与到各种相互作用中甚至参与生物催化过程。的确，加入这种唯一的三维结构使得RNA分子能够发挥生物催化剂(核糖酶）的作用。

2.3 蛋白质

蛋白质是由20种不同的氨基酸构成的线性长串，这些氨基酸由DNA中的存储遗传信息的直接表达式构成。这意味着由四个字母构成的DNA语言被翻译成更复杂的由20个字母构成的蛋白质语言。显然，必定有某些编码（遗传代码)将这种由4个核苷酸构成的语言翻译成由20个氨基酸构成的语言。为了区分这20个氨基酸，至少需要20个DNA“词汇”。通过对每个氨基酸使用核苷酸的三联体（密码子)，包含3个字母的可能的“词汇”有4^3=64个。使用这些“词汇”来对20个氨基酸进行编码已经足够了，事实上，大多数的氨基酸都有多个密码子，因为64个密码子中的3个用来对“停止合成”指令进行编码。当然也存在一种用来对“开始合成”指令进行编码的密码子,但是这种密码子同时也对蛋氨酸进行编码,其中蛋氨酸是蛋白质中发现的20种氨基酸之一。

3. 生物学基因表达式【★★★★】

3.1. 基因组复制

当James D.Watson和 Francis Crick在1953年共同提出双螺旋结构时，DNA 的复制机制开始逐渐广为人知，要将这一机制中必不可少的参与者分离出来进行研究,并理解这个机制的细节只不过是一个时间问题。这些互补的，双螺旋结构的DNA分子将自己打开，每个链成为用来与其互补的链合成的模板。例如，当一个细胞内的病毒复制时,它将自己的基因组复制数百次，从而在几分钟以内形成数百个病毒粒子。

Python获取基因序列 python编辑基因_Python获取基因序列_02

图3.1.DNA分子的复制。每条链作为一个新的互补链的模板。当拷贝完成时,将会产生两个子DNA分子,每个分子在序列上与分子母体完全相同。

3.2. 基因组重构

3.2.1. 变异

当某个特定的基因组进行自我复制，并把其遗传信息传给下一代时，子代分子的序列有时会与母代分子的序列在一点或者多点上有所不同。虽然这种复制机制近乎完美，但是有些时候新合成的链上会引入一个不匹配的核苷酸。尽管细胞中存在某些机制能对大部分不匹配的情况进行纠正，但是其中还是有些不匹配的情况没有被修复而被直接传给了下一代(图3.2)。

Python获取基因序列 python编辑基因_算法_03

图3.2.基因的DNA序列中的变异。此处一个基替换(s)，一个小的删除（d)和一个小的插入(i)。

在自然界中，变异出现的比例是受严格控制的，各种不同的生物体有不同的变异比例,例如病毒和细菌的变异比例就比真核细胞的变异比例要高。而其中病毒的变异比例当然最高，因为一个病毒粒子可以在每个受感染的细胞里面留下上百个甚至上千个后代，测试某一代中几个新的基因组。

进一步分析蛋白质上的点变异对蛋白质本身的影响也是很重要的工作。在一个基因内部，某个核苷酸被另一个核苷酸所取代可能产生几种不同的影响:

新的密码子可能对一个新的氨基酸进行编码（这称作错义变异);
新的密码子可能对一个“终止”密码子进行编码，截断该蛋白质，抑或一个“终止”密码子变异成一个氨基酸密码子,将链延长(无义变异);
更常见的情况是，基因内的点变异对蛋白质序列完全没有影响，因为新的密码子可能编码成了一个相同的氨基酸（中性变异):
还有一种情况是，在真核细胞中,大部分基因序列都被非编码区（基因内区)所干扰，如果变异发生在基因内区里面的话，那么这种变异对蛋白质序列根本没有任何影响（这也是中性变异的一个实例)。

这些结构和功能上的变异对蛋白质造成的影响可能各不相同。点变异造成的影响可能是中性的，可能对氨基酸毫无改变,也可能在该蛋白质所在的位置上用一个功效相同的蛋白质去取代它。密码子的插入/删除也可能不产生什么明显的后果，只对蛋白质的功能有很小的改变。在某些偶然的情况下，这些变异会提高蛋白质的效率，为该生物体赋予某些选择上的优势。另一方面，无义变异和移码变异几乎每次都会导致致命的影响，特别是当新产生的蛋白质对该生物体的存活来说至关重要时，尤其如此。这种变异有时也能导致一些新的、革命性的特性出现，虽然这种情况十分少见。

3.2.2. 重组

蛋白质通过世世代代地不断积累各种各样的变异达到逐渐进化的目的。但是变异并不是遗传多样性的唯一来源。其中的一种算子就是重组。在自然界中存在各种各样的重组过程，它们牵涉到不同的过程同时发挥不同的功能。然而，在所有的重组操作中，两个供体分子中的某些遗传元素的片断相互交换，这样,每个供体中的遗传信息得以在后代中表现出来(如图3.3)。例如，在有性繁殖时，两对同源染色体交换其DNA片断。

Python获取基因序列 python编辑基因_算法_04

图3.3.三种重组过程。a)同源重组; b〉特定位置的重组;和c)非同源重组。注意特定位置的重组和非同源重组比同源重组具有更强的变换能力。

尽管在GEP中并不要求同源序列，同源染色体配对时同源重组操作的简单图示还是能够帮助我们了解GEP 如何通过重组过程来产生种群中的遗传多样性。这个简单的图示无疑是十分方便的，因为在GEP中发生重组的染色体具有相似的结构，而且重组过程中会产生两个子代染色体。因此，在重组时，两个染色体（并不需要同源）配对并交换它们的部分材料，生成两个新的子代染色体。需要注意的是，由于结构同源性的原因，染色体中某个特定基因中特定位置上的片断将绝对不会和另一个基因中不同位置上的片断相互交换,或者说一个基因尾部的片断绝对不会和一个基因头部的片断相互交换。如此说来，GEP的重组操作虽然表面上看起来和同源重组非常相似，但是在生物学上没有对应的概念。

3.2.3. 转座

PS：这个有点难理解，高中生物没有涉及
转座遗传元素由可以在基因组中移动的基因构成。生物学中有三类结构和转座机制不同的转座元素。它们同时存在于真核细胞和原核细胞中，并对它们转座的目标染色体造成不同的影响。比如，它们可以通过干扰基因的编码序列降低基因的活性:它们也可以通过提供一个启动区和核糖核酸聚合酶相结合的脱氧糖核酸分子或者转录触媒来激活一个相邻的基因;或者它们也可以通过产生同源序列对一个染色体进行重构,而这些同源序列可以在以后的同源重组中使用。这些不必考虑边界，甚至是物种边界，可以在染色体之间移动的“跳跃基因”的存在,极大地改变了我们对进化所抱有的观点,即只是中性变异平缓地推动进化过程的观点。转座操作的影响非常剧烈，所以很少显式采用。与此类似，非同源重组和无义变异以及移码变异的影响也十分剧烈。尽管如此，转座(以及非同源重组）在生物界不仅十分频繁而且分布还很广，并且在生物中留下了许多假象。虽然如此，在大部分情况下转座操作以及一些非同源重组都是有害的。只有在很少的情况下会形成一些“有希望的怪胎”,产生一个全新的蛋白质。实际上在自然界，结构上和功能上都非常不同的蛋白质都有相同的结构主体(域)可能就是因为这些遗传变化的存在。
各种不同类型转位子的结构细节与其多样的机制对于像GEP这样的计算机系统来说并不重要。GEP中采用的转座元素是自然界中发现的转座元素的简化体。首先，在GEP中，所选定的转座元素只在同一个染色体内转座。其次，GEP的转座元素可以是整个基因，也可以是基因片段。第三，任何基因或者片断都可以成为一个转座元素，而不必满足是特定的可区分序列这一要求。第四，转座元素被完全复制到目标位置。最后，在基因转座中，供体序列在原位置上被删除，然而在转座片断中供体序列保持不变,通常会产生驻留在同一个染色体中的两个同源序列。我们会看到，在GEP中，采用转座会产生简单、重复的序列。

3.2.4. 基因复制

基因复制在蛋白质的进化中起着重要的作用。虽然基因复制的机理还不为人知，但是一个基因偶尔会在复制过程中被复制两次。如果需要生成大量蛋白质的话，这样的转换并没有什么潜在的危害，甚至有可能有一定的优势。另一方面，如果时间足够的话，这两个基因有可能开始独立进化。其中一个可能继续表达原来那个蛋白质，而另一个则有可能进化到一个完全不同的蛋白质中。
在GEP中，基因偶尔也会被复制。虽然对于基因复制没有特别的算子，但是一个基因可以在基因转座和基因重组的联合作用下进行复制。有趣的是，染色体中有重复基因的情况经常出现在GEP种群的那些最佳个体中。

3.3. 转录

将遗传信息表达到蛋白质中的过程并非直接源于DNA。将 DNA语言转换成蛋白质语言，需要一个中间分子。该分子是一类特别的RNA，称为信使RNA，其合成过程称为转录。

在转录的过程中，基因序列被复制到一个 mRNA中，该过程采用一个 DNA分子的一条链作为模板（如图3.4)。DNA/RNA双链的互补规则和 DNA中的互补规则十分相似，rA与dT配对（r代表RNA，d代表 DNA)，rU与dA配对，rG与dC配对，rC与dG配对。根据互补规则，产生一个与基因完全相同的rRNA形式的拷贝。该信使RNA含有蛋白质合成所需的所有信号，即“开始”信号和“终止”信号。这个信使RNA被放到细胞中合适的位置，成为蛋白质合成的模板。比如，在真核细胞中，在细胞核中合成的 mRNA就必须进入翻译机制所在的细胞质中去。

Python获取基因序列 python编辑基因_python_05

图3.4.DNA 与 mRNA 的关系。注意 mRNA与它转录的来源DNA链是互补的。还要注意开始信号前面以及终止信号后面的序列都不会被翻译成氨基酸。为了描述开始信号和终止信号，这里所给出的序列比实际序列要短很多。

3.4. 翻译和翻译后修饰

细胞内的蛋白质合成过程涉及到非常复杂的机制,关系到数百个分子。翻译过程中的主要问题包括:(1）作为蛋白质合成模板的mRNA分子;(2）核糖体，实际解码过程就发生在其中;(3）一类特殊的RNA(转移RNA)，该RNA将恰当的氨基酸运送到复杂的mRNA或者核糖体中。

3.4.1. 翻译

DNA和RNA合成的逻辑关系与蛋白质的合成相比来说相当简单,这种关系以核苷酸间的互补规则为基础。从化学角度来说，不存在简单的办法能够直接使三联体密码子与恰当的氨基酸配对。事实上，许多翻译方式经过进化得到了许多成熟的机制，这些机制正好能够解决这个问题。氨基酸必须能够正确地附着到那些特殊分子上,这些特殊分子进一步与mRNA中正确的密码子结合起来的。这一类特殊的分子也是RNA分子（转移RNA)，但是它们与mRNA在结构上和功能上均不相同。我们已经看到,tRNA有三级结构，因而具有各式各样的功能。虽然识别正确的氨基酸的任务并不由 tRNA本身完成，但是它们的三维结构对于能够识别它们的特定的酶来说则是至关重要的。每一种酶同时识别一个特定的氨基酸和相应的tRNA，并进一步将这个氨基酸附着在这个 tRNA 上。更进一步，每个 tRNA还含有一个与相应的密码子互补的核苷酸序列(反密码子)，正是这样，正确的氨基酸载体与mRNA 的配对才得以完成。

用来将mRNA的三联体密码子翻译成氨基酸的规则集就是遗传代码。图3.5 所示的是64个密码子及其所编码的氨基酸或指令。氨基酸用三个字母的缩写来表示，并用一个字母的缩写来描述蛋白质中的主要结构。(本章的所有图都将使用这种一个字母的缩写来表示蛋白质链。)

Python获取基因序列 python编辑基因_Python获取基因序列_06

图3.5 以mRNA形式表达的遗传代码。64个密码子中有3个是终止信号。开始密码子也对metionine进行编码。注意该编码是冗余的，因为有许多密码子对相同的氨基酸进行编码。每个密码子所对应的氨基酸由三个字符和蛋白质中通常用于描述氦基酸序列的一个字符的缩写构成。mRNA的消息被读出来，每次只读出一个密码子，每个密码子通过反密码子与相应的tRNA 正确配对,这些被转运的氨基酸一个接一个地连接起来,形成一个长的线性蛋白质链,这个链的序列正好反映基因的序列(如图3.6)。值得注意的是，核糖体―一蛋白质合成过程中的关键粒子―—是由很多蛋白质和其它种类的RNA分子，即核糖体分子构成的巨大的大分子结构。与tRNA类似，rRNA也有唯一的三维结构。所以 rRNA 在核糖体这个大的机器中无数的化学反应中起到真正的酶的作用。

Python获取基因序列 python编辑基因_算法_07

图3.6.一个简化的翻译过程，仅显示必须的成分: mRNA模板，开始和终止密码子，一个变化的 tRNA和新出现的蛋白质链。为了描述开始信号和终止信号，这里所给出的序列比实际序列要短很多。

3.4.2. 翻译后修饰

当翻译过程到达一个停止信号时，一个非功能蛋白质链就被释放。这些蛋白质链一旦被释放，马上要接受一系列的修饰。其中第一个就是所有蛋白质中十分普遍的所谓翻译后修饰操作，这种修饰同时也构成了其唯一的三维结构中的蛋白质链的堆叠。某些蛋白质还要进一步接受其它一些修饰，比如对某些氨基酸进行的化学修饰将使蛋白质语言丰富许多，影响某些特定氨基酸之间的共价键的形成,以及能够通过某些片断的移除操作使链长缩短。最后,某些堆叠的蛋白质链(子单元)必须和其它一些子单元合并形成一个多子单元蛋白质。这些多子单元蛋白质包括细胞中许多最重要的酶和转移蛋白。我们称这些蛋白质含有一种四元结构，也就是最高级别的蛋白质组织结构。

4. 其他关键术语【★★】

4.1. 适应性

种群为了能够在很长时间的进化过程中逐渐适应，生物个体必须通过选择进行复制。从进化学的角度来说，某个特定生物体的存活只有在它能够留下后代的情况下才会显得重要。只有该个体的后代才能够表现出某些新的特性并更好地适应自然环境。一个生物越能适应环境，其被选择并留下后代的可能性越大。我们在自然界中的生物体里发现的变化或者遗传多样性实际上是生物体用于选择的原始材料,这些生物体通过利用与其它物种相比的各种优势来保证其存在。越成功的个体留下的后代越多,这使得这些适应性较好的个体在种群中出现的频率增加（判断生物的适应性好坏的标准在于它们是否能存活下来)，并随着时间的变化改变其自身的特性。但是在自然界，适应的进程从未停止过，这是因为生物体不断改变选择所出现的同一个环境,而且产生的个体不一定都能存活。

4.2. 盘轮采样策略

科学家喜欢引入随机因素来模拟自然界中的选择过程。这类选择最简单的一个实现方法就是盘轮采样策略（Goldberg 1989)。每个个体用圆形赌盘上的一块来代表其适应度的比例。盘旋转时，较大的块被选中的概率较大。因为这完全是一种非确定性的现象，所以有时仍些不太可能的事情会发生而很可能发生的事情却没有发生。

4.3. 遗传算法

J.Holland在20世纪60年代发明的遗传算法将生物进化的理论运用到了计算机系统(Holland 1975)。如所有进化的计算机系统一样，GAs也是生物进化的一种简化。在其中问题的解被编码成线性字符串（通常是0和1)，一个由备选解构成的种群通过不断进化发现当前问题的一个最优解。种群，也就是解，因为解个体在修饰之后不断繁殖所以能够化。如我们所看到的，这是进化发生的前提条件。在最初的GA中，修饰是通过变异，杂和倒置引入的。另外，为了使进化得以发生，个体必须经过选择的筛选。算法根据个体的应度进行选择，个体的适应度按照一定的方式严格计算，个体的适应度决定了它们繁殖的l例。个体的适应度越高，它们留下较多后代的可能性越大。
遗传算法只使用一种实体：染色体。因此，遗传算法的染色体就是简单的复制体。这些染色体由固定长度的线性符号串构成，代表当前问题的一个可能解。对每个问题来说，为了评价每个染色体的适应度，我们必须生成并严格地定义一种表示方法。实际上，在实现一个遗传算法的过程中,最困难的方面就是产生这样一种表示方法,但是这种表示方法一旦确定，那么这个问题就可以用一个符号染色体来编码。这些染色体(备选解)构成的初始群体是随机产生的，这个种群经过若干代的进化直到发现一个问题的最优解。

5. 参考书籍

基因表达式编程第6版

本文作者：九重！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：从张量中取固定索引值张量的索引

下一篇：高云FPGA连接内部EMPU fpga云加速

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯