  1. char:  | a | b | a | b | a | b | c | a |
  2. index: | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
  3. value: | 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |

" a "的前缀和后缀都为空集,最大相同字符子串的长度为 0 ;


ab "的前缀为[ a ],后缀为[ b ],不存在最大相同字符子串,则长度为 0 ;


aba "的前缀为[ a, ab ],后缀为[ ba, a ],最大相同字符子串[a]的长度为1;


abab "的前缀为[a, ab, aba],后缀为[bab, ab, b],最大相同字符子串[ab]的长度为 2 ;


ababa "的前缀为[ a, ab, aba, abab ],后缀为[ baba, aba, ba, a ],最大相同字符子串[ aba ]的长度为 3 ;


ababab "的前缀为[ a, ab, aba, abab, ababa ],后缀为[ babab, abab, bab, ab, b ],最大相同字符子串[ abab ]的长度为 4 ;


abababc "的前缀为[a, ab, aba, abab, ababa,ababab],后缀为[bababc, ababc, babc, abc, bc, c],不存在最大相同字符子串,则长度为0。

-"abababca"的前缀为[a, ab, aba, abab, ababa,ababab,abababc],后缀为[bababca, ababca, babca, abca, bca, ca,a],最大相同字符子串[a]的长度为1。



  1. 若P[i]=P[len],则next[i]=++len;i++继续查找下一个字符的next元素值;
  2. 若P[i]!=P[len],则分为两步:

  • 若len!=0,递归查找,即比较next前一个元素值所在位置的字符P[next[len-1]]与P[i],因此i不变,而len=next[len-1];
  • 若len=0,则当前字符的next元素值为0,即next[i]=0;此时len不变,i++查找下一个位置字符的next元素值;

   下面给出求解模式串 next 数组的代码:

  1. void computeNextArray(const string &pat, int M, int *next)
  2. {
  3. int len = 0;  // lenght of the previous longest prefix suffix
  4. int i = 1;
  5. // next[0] is always 0

  6. // the loop calculates next[i] for i = 1 to M-1
  7. while(i < M)
  8. {
  9. if(pat[i] == pat[len])
  10. {
  11. len++;
  12. next[i] = len;
  13. i++;
  14. }
  15. else // (pat[i] != pat[len])
  16. {
  17. if( len != 0 )
  18. // This is tricky. Consider the example AAACAAAA and i = 7.
  19. len = next[len-1];
  20. // Also, note that we do not increment i here
  21. }
  22. else // if (len == 0)
  23. {
  24. next[i] = 0;
  25. i++;
  26. }
  27. }
  28. }
  29. }


  1. 若当前对应字符匹配成功即pat[j] = txt[i],则i++,j++,继续匹配下一个字符;
  2. 若当前对应字符匹配失败即pat[j] != txt[i],则分为两步:

  • 若模式串当前字符的位置j!=0时,此时,模式串相对于文本字符串向后移动j - next[j-1]位,文本字符串当前位置i不变,更新模式串当前字符的位置j = next[j-1],继续匹配字符;
  • 若模式串当前字符的位置j=0时,此时只需更新文本字符串的当前位置i++,其他不变,继续匹配下一个字符;


  1. void KMPSearch(const string &pat, const string &txt)
  2. {
  3. int M = pat.length();
  4. int N = txt.length();

  5. // create next[] that will hold the longest prefix suffix values for pattern
  6. int *next = (int *)malloc(sizeof(int)*M);
  7. int j  = 0;  // index for pat[]

  8. // Preprocess the pattern (calculate next[] array)
  9. computeNextArray(pat, M, next);

  10. int i = 0;  // index for txt[]
  11. while(i < N)
  12. {
  13. if(pat[j] == txt[i])
  14. {
  15. j++;
  16. i++;
  17. }

  18. if (j == M)
  19. {
  20. "Found pattern at index:"<< i-j<<endl;
  21. j = next[j-1];
  22. }

  23. // mismatch after j matches
  24. else if(pat[j] != txt[i])
  25. {
  26. // Do not match next[0..next[j-1]] characters,
  27. // they will match anyway
  28. if(j != 0)
  29. j = next[j-1];
  30. else
  31. i = i+1;
  32. }
  33. }
  34. // to avoid memory leak
  35. }

下面举例,模式串 p at = “ abababca ” , 输入文本字符串  text = “ bacbababaabcbab ”。


    第一次匹配成功的字符为相对应字符a,由于模式串下一个字符b与文本字符c不匹配,且j=1、已匹配字符数为j=1,next[j-1]=0;所以下一次向后移动的位数为j-next[j-1]=1-0=1;文本字符串当前位置i不变,更新模式串当前字符的位置j = next[j-1]=0;

  1. bacbababaabcbab
  2. |
  3. abababca

           第二次匹配成功的是字符ababa;由于模式串下一个字符b与文本字符a不匹配,且j=5、已匹配字符数j=5、next[j-1]=3;所以下一次向后移动的位数为j-next[j-1]=5-3=2;即忽略两位文本字符;文本字符串当前位置i不变,更新模式串当前字符的位置j = next[j-1]=3;

  1. bacbababaabcbab
  2. |||||
  3. abababca

经过上一步向后移动后的字符匹配为下面所示; 由于模式串下一个字符 b 与文本字符 a 不匹配,且 j=3 、已匹配字符数 j=3 、 next[j-1]=1 ;则下一次匹配是向后移动位数为j-next[j-1]=3-1=2;即忽略两位文本字符;文本字符串当前位置i不变,更新模式串当前字符的位置j = next[j-1]=1;

  1. // x denotes a skip

  2. bacbababaabcbab
  3. xx|||
  4. abababca

经过前一步的移动后得到下面的匹配; 由于模式串下一个字符 b 与文本字符 a 不匹配,且 j=1 、已匹配字符数 j=1 、 next[j-1]=0 ; 则下一次匹配是向后移动位数为j-next[j-1]=1-0=1;但是此时,模式串的字符长度大于待匹配的文本字符长度,所以,模式串匹配失败,即在文本字符串中不存在与模式串相同的字符串;

  1. // x denotes a skip

  2. bacbababaabcbab
  3. xx|
  4. abababca


  1. #include<iostream>
  2. #include<string>
  3. #include<stdlib.h>

  4. using namespace std;

  5. void computeNextArray(const string &pat, int M, int *next);

  41. void computeNextArray(const string &pat, int M, int *next)
  42. {
  43. int len = 0;  // lenght of the previous longest prefix suffix
  44. int i = 1;
  45. // next[0] is always 0

  46. // the loop calculates next[i] for i = 1 to M-1
  47. while(i < M)
  48. {
  49. if(pat[i] == pat[len])
  50. {
  51. len++;
  52. next[i] = len;
  53. i++;
  54. }
  55. else // (pat[i] != pat[len])
  56. {
  57. if( len != 0 )
  58. // This is tricky. Consider the example AAACAAAA and i = 7.
  59. len = next[len-1];
  60. // Also, note that we do not increment i here
  61. }
  62. else // if (len == 0)
  63. {
  64. next[i] = 0;
  65. i++;
  66. }
  67. }
  68. }
  69. }

  70. int main()
  71. {
  73. "ABABCABAB";
  74. KMPSearch(pat, txt);
  75. "pause");
  76. return 0;
  77. }



  1. char:  | a  | b | a  | b |
  2. index: | 0  | 1 | 2  | 3 |
  3. value: | 0  | 0 | 1  | 2 |
  4. shift:| -1 | 0 | 0  | 1 |
  5. next: | -1 | 0 | -1 | 0 |

下面通过例子讲解优化的过程,假设输入文本字符串和模式串分别为 txt = "abacababc",pat = "abab";

    第一次匹配成功如下,若根据没有优化的数组进行匹配时,优化之前的数组为shift,则当前模式串字符b与文本字符c不匹配,当前匹配失败的字符位置是j=3;则模式串右移j-shift[j] = 3-1=2位,

  1. abacababc
  2. |||
  3. abab

经过上一步骤后,模式串字符b还是与文本字符c失配。而且失配对应的字符和上一步骤完全一样。事实上,因为在上一步的匹配中,已经得知pat[3] = b,与txt[3] = c失配,而右移两位之后,让pat[shift[3]] = pat[1] = b再跟txt[3]匹配时,必然失配。

  1. //x denotes a skip
  2. abacababc
  3. xx|
  4. abab

问题是因为出现 pat[shift [j]]=pat[j];因为当pat[j] != txt[i]时,下次匹配必然是pat[shift[j]]跟txt[i]匹配,如果pat[shift[j]]=pat[j],必然导致后一步匹配失败,所以不能允许pat[shift[j]]=pat[j]。如果出现了pat[shift[j]]=pat[j],则需要再次递归,即令shift[j]=shift[shift[j]]。则优化后的数组shift就是数组next;


  1. ___________________________________________________________________________________
  2. |char:    | a             | b                 | a               | b               |
  3. |_________|_______________|___________________|_________________|_________________|
  4. |index:   | 0             | 1                 | 2               | 3               |
  5. |_________|_______________|___________________|_________________|_________________|
  6. |value:   | 0             | 0                 | 1               | 2               |
  7. |_________|_______________|___________________|_________________|_________________|
  8. |shift:  | -1            | 0                 | 0               | 1               |
  9. |_________|_______________|___________________|_________________|_________________|
  10. |reason:  | The initial   | p[1]!=p[shift[1]] | p[2]=p[shift[2]]| p[3]=p[shift[3]]|
  11. |         |value unchanged|                   |                 |                 |
  12. |_________|_______________|___________________|_________________|_________________|
  13. |operator:|do nothing     |do nothing         | shift[2]=       | shift[3]=       |
  14. |         |               |                   | shift[shift[2]] | shift[shift[3]] |
  15. |_________|_______________|___________________|_________________|_________________|
  16. |next:   | -1            | 0                 | -1              | 0               |
  17. |_________|_______________|___________________|_________________|_________________|


  1. #include <iostream>
  2. #include <string>
  3. #include<stdlib.h>
  4. using namespace std;

  5. void computeNextArray(const string &pat, int M, int *next)
  6. {
  7. int j=0,k=-1;
  8. //优化next,初始值为-1
  9. while(j<M-1)
  10. {
  11. if(k==-1 || pat[j]==pat[k])
  12. {
  13. ++j;
  14. ++k;
  15. if(pat[j]!=pat[k])next[j]=k;
  16. //因为不能出现pat[j] = pat[ next[j ]],所以当出现时需要继续递归
  17. else next[j]=next[k];
  18. }
  19. else k=next[k];
  20. }
  21. }

  22. void kmpSearch(const string&txt,const string&pat)
  23. {
  24. int i=0,j=0;
  25. int N = txt.length();
  26. int M = pat.length();
  27. int *next = (int *)malloc(sizeof(int)*M);
  28. computeNextArray(pat, M, next);
  29. "The value of next are:";
  30. for ( i = 0; i < M; i++)
  31. {
  32. " ";
  33. }
  34. cout<<endl;
  35. //注意:i的值必须为0,因为从第一个字符开始比较
  36. while(i<N && j<M)
  37. {
  38. if(j==-1 || txt[i]==pat[j])
  39. {
  40. i++;
  41. j++;
  42. }
  43. else j=next[j];
  44. }
  45. if(j==M)cout<<"Found pattern at index:"<< i-j<<endl;
  46. free(next);
  47. }

  48. int main()
  49. {
  50. "aacababc";
  51. "abab";
  52. kmpSearch(txt,pat);
  53. "pause");
  54. return 0;
  55. }






