【定义】
Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置。
KMP算法的核心在于求next数组。next数组的含义为:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如如果 next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。(注意是抛弃当前的字符,往前看的字符串有多大长度的相同 前缀后缀)
【代码模板】
#include<cstdio>
#include<iostream>
#include<fstream>
#include<algorithm>
#include<functional>
#include<cstring>
#include<string>
#include<cstdlib>
#include<iomanip>
#include<numeric>
#include<cctype>
#include<cmath>
#include<ctime>
#include<queue>
#include<stack>
#include<list>
#include<set>
#include<map>
using namespace std;
const int N = 1000002;
int nxt[N];
char S[N], T[N];
int slen, tlen;
void getNext()
{
int j, k;
j = 0; k = -1;
nxt[0] = -1;
while(j < tlen)
if(k == -1 || T[j] == T[k])
{
nxt[++j] = ++k;
if (T[j] != T[k]) //优化
nxt[j] = k;
}
else
k = nxt[k];
}
/*
返回模式串T在主串S中首次出现的位置
返回的位置是从0开始的。
*/
int KMP_Index()
{
//int i=max(slen-tlen,0),有的题可以优化一下起始位置,不然会T
int i = 0, j = 0;
getNext();
while(i < slen && j < tlen)
{
if(j == -1 || S[i] == T[j])
{
i++;
j++;
}
else
j = nxt[j];
}
//return j;//T串前缀在主串S可以匹配的最远可以匹配的位置
if(j == tlen)
return i - tlen;
else
return -1;
}
/*
返回模式串在主串S中出现的次数 ,l表示从主串开始的字符,r表示结尾的字符,左开右闭
*/
int KMP_Count(int l,int r)
{
int ans = 0;
int i=l, j = 0;
if(slen == 1 && r-l+1 == 1)
{
if(S[0] == T[0])
return 1;
else
return 0;
}
for(i=l; i < r;)
{
while(j > 0 && S[i] != T[j])
{
j = nxt[j];
}
if(S[i] == T[j])
j++;
i++;
if(j == tlen)
{
ans++;
//add(i-tlen+1,1);
//vis[i-tlen]=1;
j = nxt[j];///不可重叠的j=0
}
}
return ans;
}
int main()
{
int TT;
int i, cc;
cin>>TT;
while(TT--)
{
scanf("%s%s",&T,&S);
slen = strlen(S);
tlen = strlen(T);
cout<<"模式串T在主串S中首次出现的位置是: "<<KMP_Index()<<endl;
cout<<"模式串T在主串S中首次出现的位置是: "<<KMP_Count(0,slen)<<endl;
}
return 0;
}
经典例题:
入门:
HDU 1711Number Sequence KMP模板题(找模板第一次出现的位置)
POJ 3461Oulipo KMP模板题 (统计一个串出现的次数)
HDU 2087 剪花布条 (KMP 三种做法)
HDU 3336 Count the string (KMP:串前缀匹配自身+DP)
最小循环节:
重要结论:
假设当前求出的字符串的前缀和后缀的最长的匹配的长度为len,那么下一个满足的前缀和后缀互相匹配的长度为next[len]...依次
len-next[i]为此字符串s[1...i]的最小循环节(i为字符串的结尾),另外如果len%(len-next[i])==0,此字符串的最小周期就为len/(len-next[i]);
poj 1961 Period (KMP+最小循环节)
POJ 2406 Power Strings (KMP:找串循环节)
HDU 3746 Cyclic Nacklace (KMP:补齐循环节)
前缀与后缀
HDU 2594 Simpsons’ Hidden Talents (字符串-KMP 前缀与后缀)
poj 2752 Seek the Name, Seek the Fame (KMP前后缀相同)
fzu 1901 Period II (KMP)
Codeforces Beta Round #93 (Div. 1 Only)B. Password (KMP:>=3的相同前缀后缀 两种做法)
POJ - 3080 Blue Jeans (求最大公共子序列,且要求字典序) KMP+暴力