动态规划序列比对 python

原创

mob64ca12e86bd4 2025-01-14 03:30:55 ©著作权

文章标签 动态规划 Python 类图 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12e86bd4的原创作品，请联系作者获取转载授权，否则将追究法律责任

动态规划与序列比对：Python 实现

动态规划是一种解决复杂问题的方法，尤其适合解决最优化问题。其核心思想是将大问题分解为更小的子问题，通过存储子问题的结果来避免重复计算。序列比对是生物信息学中的一项重要技术，用于比较DNA、RNA或蛋白质序列的相似性。

在本文中，我将介绍动态规划的基本原理，并用Python实现序列比对的示例。我们还将包含类图和关系图，以帮助理解整个过程。

动态规划基本原理

动态规划的关键在于两个理念：

重叠子问题：一个问题可以被分解成多个相同的小问题。
最优子结构：一个问题的最优解可以由其子问题的最优解构成。

应用场景：序列比对

序列比对可以通过动态规划来实现，最常见的算法是“Smith-Waterman算法”和“Needleman-Wunsch算法”。在本例中，我们将实现最简单的Needleman-Wunsch算法。

Python实现

代码示例

以下是用Python实现的Needleman-Wunsch算法：

class NeedlemanWunsch:
    def __init__(self, seq1, seq2, match_score=1, mismatch_cost=-1, gap_cost=-1):
        self.seq1 = seq1
        self.seq2 = seq2
        self.match_score = match_score
        self.mismatch_cost = mismatch_cost
        self.gap_cost = gap_cost
        self.score_matrix = None
        self.alignment_a = ""
        self.alignment_b = ""

    def create_score_matrix(self):
        len_seq1 = len(self.seq1)
        len_seq2 = len(self.seq2)
        
        self.score_matrix = [[0] * (len_seq2 + 1) for _ in range(len_seq1 + 1)]
        
        for i in range(len_seq1 + 1):
            self.score_matrix[i][0] = i * self.gap_cost
        for j in range(len_seq2 + 1):
            self.score_matrix[0][j] = j * self.gap_cost

        for i in range(1, len_seq1 + 1):
            for j in range(1, len_seq2 + 1):
                match = self.score_matrix[i-1][j-1] + (self.match_score if self.seq1[i-1] == self.seq2[j-1] else self.mismatch_cost)
                delete = self.score_matrix[i-1][j] + self.gap_cost
                insert = self.score_matrix[i][j-1] + self.gap_cost
                
                self.score_matrix[i][j] = max(match, delete, insert)

    def traceback(self):
        i = len(self.seq1)
        j = len(self.seq2)
        
        while i > 0 and j > 0:
            if self.seq1[i-1] == self.seq2[j-1]:
                self.alignment_a += self.seq1[i-1]
                self.alignment_b += self.seq2[j-1]
                i -= 1
                j -= 1
            elif self.score_matrix[i][j] == self.score_matrix[i-1][j] + self.gap_cost:
                self.alignment_a += self.seq1[i-1]
                self.alignment_b += "-"
                i -= 1
            else:
                self.alignment_a += "-"
                self.alignment_b += self.seq2[j-1]
                j -= 1
        
        while i > 0:
            self.alignment_a += self.seq1[i-1]
            self.alignment_b += "-"
            i -= 1
        while j > 0:
            self.alignment_a += "-"
            self.alignment_b += self.seq2[j-1]
            j -= 1
        
        self.alignment_a = self.alignment_a[::-1]
        self.alignment_b = self.alignment_b[::-1]

    def align(self):
        self.create_score_matrix()
        self.traceback()
        return self.alignment_a, self.alignment_b, self.score_matrix[-1][-1]

# 示例用法
if __name__ == "__main__":
    seq1 = "AGGTAB"
    seq2 = "GXTXAYB"
    nw = NeedlemanWunsch(seq1, seq2)
    alignment_a, alignment_b, score = nw.align()
    print("Alignment:")
    print(alignment_a)
    print(alignment_b)
    print("Score:", score)

代码解析

类定义与初始化：定义了一个NeedlemanWunsch类来存储序列、得分、罚分及对齐结果。
创建得分矩阵：create_score_matrix方法负责生成动态规划所需的得分矩阵。
追踪路径：traceback方法根据得分矩阵进行路径追踪，得到最终序列比对的结果。
主函数：在主程序中创建一个类实例，调用方法计算对齐并输出结果。

类图与ER图

为了更好地理解代码结构和数据关系，我们可以使用类图和ER图来表示。

类图

classDiagram
    class NeedlemanWunsch {
        +str seq1
        +str seq2
        +int match_score
        +int mismatch_cost
        +int gap_cost
        +list score_matrix
        +str alignment_a
        +str alignment_b
        +create_score_matrix()
        +traceback()
        +align()
    }

ER图

erDiagram
    SEQUENCE {
        string id
        string content
    }
    ALIGNMENT {
        string id
        string sequence_id_a
        string sequence_id_b
        string aligned_sequence_a
        string aligned_sequence_b
        int alignment_score
    }
    SEQUENCE ||--o{ ALIGNMENT : aligns