历届试题_DNA比对

原创

雷子abc 2022-06-27 21:16:24 ©著作权

文章标签 子串 i++ 数据 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者雷子abc的原创作品，请联系作者获取转载授权，否则将追究法律责任

脱氧核糖核酸即常说的DNA，是一类带有遗传信息的生物大分子。它由4种主要的脱氧核苷酸(dAMP、dGMP、dCMT和dTMP)通过磷酸二酯键连接而成。这4种核苷酸可以分别记为：A、G、C、T。

DNA携带的遗传信息可以用形如：AGGTCGACTCCA.... 的串来表示。DNA在转录复制的过程中可能会发生随机的偏差，这才最终造就了生物的多样性。

为了简化问题，我们假设，DNA在复制的时候可能出现的偏差是（理论上，对每个碱基被复制时，都可能出现偏差）：

　1. 漏掉某个脱氧核苷酸。例如把 AGGT 复制成为：AGT

2. 错码，例如把 AGGT 复制成了：AGCT

3. 重码，例如把 AGGT 复制成了：AAGGT

如果某DNA串a，最少要经过 n 次出错，才能变为DNA串b，则称这两个DNA串的距离为 n。

例如：AGGTCATATTCC 与 CGGTCATATTC 的距离为 2

你的任务是：编写程序，找到两个DNA串的距离。

【输入、输出格式要求】

用户先输入整数n(n<100)，表示接下来有2n行数据。

接下来输入的2n行每2行表示一组要比对的DNA。（每行数据长度<10000）

程序则输出n行，表示这n组DNA的距离。

例如：用户输入：

AGCTAAGGCCTT

AGCTAAGGCCT

AGCTAAGGCCTT

AGGCTAAGGCCTT

AGCTAAGGCCTT

AGCTTAAGGCTT

则程序应输出：

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 思路：刚开始做的时候没啥思路，网上看了一个博客之后突然发现和求最长公共序列很相似，顿时感觉自己脑子锈掉了，之前写过类似的题啊，具体的思路过程为与其说是DNA比对，不如说是字符串比对，用户输入两个字符串str1和str2，我们把str1作为标准串，由str2变为标准串可以通过重复，丢失和修改三种方法。

重复就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = A ,str2[i+2]=C

丢失就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = T

修改就是str1[i]=A , str1[i+1]=C , str[i+2]=T ,而对应的str2[i]=A ,str2[i+1] = G,str2[i+2]=T

我们假设str1的长度为len1，str2的长度为len2，用数组dp[len1][len2]表示str2变化为str1最少需要几步，也就是我们最后的答案。

我们把这个问题细化，假设dp[i][j]表示str2的字串str1[0]~str1[i-1]变成str1的字串str2[0]~str2[j-1]最少需要的步数

那么对于dp[i][j]可能有两种情况：

str1[i] == str2[j] ，这个时候，dp[i][j] = dp[i-1][j-1]

str1[i] != str2[j] ，这个时候，分为三种情况：

重复的情况：dp[i][j] = dp[i][j-1] +1

ACT

ACTT

dp[3][4] = dp[3][3] +1，因为此时str2的子串比str1的子串多出了一个字符，所以让j回到多出的那个字符前面再进行比较，得到dp[i][j-1]然后在进行了一步重复操作，所以+1

丢失的情况：dp[i][j] = dp[i-1][j] +1

ACTT

ACT

dp[4][3] = dp[3][3] +1 ，因为此时str2的子串比str1的子串丢失了一个字符，所以让i回到丢失的那个字符的前面在进行比较，得到dp[i-1][j]然后再进行一步丢失操作，所以+1

修改的情况：dp[i][j] = dp[i-1][j-1]+1

ACT

AGT

dp[3][3] = dp[2][2]

dp[2][2] = dp[1][1]+1，因为此时str1的子串和str2的长度相同，但是字符不一样，所以i-1,j-1回到上一个状态，然后再+1。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 代码的实现是用的比较常规的一类动态规划题的解法，具体可参考我之前写的最长公共子序列：

1 #include<bits/stdc++.h>
 2 
 3 using namespace std;
 4 int f(string str1,string str2)
 5 {
 6     int Len1=str1.length();
 7     int Len2=str2.length();
 8     int dp[Len1+1][Len2+1];
 9     memset(dp,0,sizeof(dp));
10     for(int i=0;i<=Len1;i++){
11         dp[i][0]=i;
12     }
13     for(int j=0;j<=Len2;j++){
14         dp[0][j]=j;
15     }
16     for(int i=1;i<=Len1;i++){
17         for(int j=1;j<=Len2;j++){
18             if(str1[i-1]==str2[j-1]){
19                 dp[i][j]=dp[i-1][j-1];////对应字母相等，array值不增加 
20             }else{
21                 //三个形参分别对应str2在str1的基础上增加，减少和修改的情况 
22                 int a=min(dp[i-1][j]+1,dp[i][j-1]+1);
23                 dp[i][j]=min(a,dp[i-1][j-1]+1);
24             }
25         }
26     }
27 
28     
29     return dp[Len1][Len2];
30 }
31 int main()
32 {
33     freopen("D:/Test/Test1.txt","r",stdin);
34     int n;
35     cin >> n;
36     int p=n;
37     int array[n];
38     memset(array,0,sizeof(array));
39     int num=0;
40     while(n--){
41         string str1,str2;
42         cin >> str1 >> str2;
43         
44         array[num++]=f(str1,str2);
45     }
46     for(int i=0;i<p;i++){
47         cout << array[i] << endl;
48     } 
49     return 0;
50  }