生物信息学的首要任务之一就是从数据库中搜索同源序列,寻找保守的序列模式。而序列比对是最常用的方法,对于发现生物序列中的功能、结构和进化的信息具有非常重要的意义。

下面给出序列比对的定义:

定义:序列比对问题可以表示为一个五元组 MSA = ( , S , A , F) ,其中:

(1) = ∑∪{ - } 为序列比对的符号集; “- ”表示空位( gap) ; ∑表示基本字符集,对于 DNA 序列,∑= { a , c , g , t} 代表4个碱基;对于蛋白质序列,∑由20个字符组成,每个字符代表一种氨基酸残;

(2)  = { ,  , …, } 为序列集;

(3) 矩阵 A =  , M ≥max{ ,  , …, } , ∈  是序列集S的一个比对结果,其中:矩阵的第 i行是参与比对的第i个序列的扩张序列(即插入空位的序列,如果移去所有的“- ”将得到原来的序列) ;矩阵中的每一列不允许同时为“- ”;

(4) F是比对A 的相似性度量函数,用来表示比对 A 中各扩张序列的相似度;

(5) 序列比对问题 MSA 就是通过适当的空位插入,构建一个使得相似性度量函数 F( A) 达到最大的比对A。

序列比对问题的求解算法一般分为两类来考虑,即双序列比对和多序列比对。

目前,序列比对中存在的主要问题在于:如何给出一个合理的优化的相似性度量准则以及如何提高分歧多序列比对的准确率。由于新兴的计算智能的优良特性,在众多的生物序列比对算法中异军突起,越来越多的被得到运用和发展。

什么是计算智能?

    计算智能也被称作“软计算”,是根据自然界生物体系的原理和规律,模仿设计出具有记忆、学习、适应等特性的求解算法的总称。这些算法通过计算机模拟和再现了生物的某些智能行为,典型的代表如遗传算法、免疫算法、模拟退火算法、蚁群算法、微粒群算法,都是一种仿生算法,其最大特点就是不需要建立问题本身精确的数学模型,适合于解决那些因为难以建立有效的形式化模型而用传统人工智能技术又难以有效解决甚至无法解决的问题。除此以外,智能计算还具有简单、通用、鲁棒性强、适于并行处理的优点,使其在并行搜索、联想记忆、模式识别、知识自动获取等方面得到了广泛的应用。自80年代中后期以来计算智能在众多领域的科学家加入下得到了极大的发展。

    计算智能有别于传统的符号智能。符号智能是以知识为基础,通过推理进行问题求解,也即传统的人工智能;而计算智能则是以数据为基础,通过训练建立联系,进行问题求解。计算智能是以联接主义为主的思维方式,即:研究简单个体如何在简单交互规则指导下,构成具有复杂智能行为的高层系统。

但是由于计算智能方法在序列比对中的应用还处于初步阶段,实验结果并不是很理想,比对的准确率以及算法的时间复杂度都有待于提高。另外,计算智能中的一些方法还没有应用进来,这除了有这些算法的适应范围的因素外,还有一个重要的问题就是数学建模的问题。如果建模得当,那么新的算法应用进来,也是大有前景的。