定义:设有主串S和子串t,子串的定位就是要在主串S中找到一个与子串t相等的子串。通常把主串S称作目标串,子串t称作模式串,因此定位也称作模式匹配。
常用两种算法:
1brute-force算法
思路:主串标记指针每次移动一个位置,然后和子串比较,如何相等则返回当前主串指针的位置。
模式匹配过程如图:
图略
上面算法的缺点:主串指针回溯,当与模式串部分匹配后,每次主指针只移动一个位置。
2.kmp算法
思路:分析模式串,从而避免不必要的回溯。构建模式数组。
过程:模式串t="abcabd",用next数组存放这些‘部分匹配‘信息
第一个字符'a',规定next[0]=-1;
第二个字符'b',规定next[1]=0;
第三个字符'c',前一个字符’b‘,不等于模式t的开头,即next[2]=0;
第四个字符'a',前面字符串"bc"、"c",都不与模式串t的开头字符串匹配,即next[3]=0;
第五个字符'b',前面字符串"bca"、"bc"、"a",有"a"与模式串t的开头字符串匹配,即next[4]=1;
第六个字符'd',前面字符串"bcab"、"cab"、"ab"、"b",有"ab"与模式串t的开头两个字符相等,即next[5]=2;
。。。
最后在计算时,每次与主串部分匹配后,主串直接从 匹配不相等的指针出继续匹配,模式串跳转到next数字指向的那个位置,避免回溯。
匹配过程如图:
图略
不完善的过程:如果出现s="aaabaaaab",t="aaaab"时,会出现主串停留在第四个字符三次,模式串的next数组从3->2->1->0的位置变化,
过程如图:
图略
改进方式:如果出现s="aaabaaaab",t="aaaab"时,模式中的1,2,3个字符和第4个相等,因此不需要在和第四个字符比较,而可以将模式一次向右滑向第4个字符的位置直接进行i=4,j=0时的字符比较。
过程如图:
最终算法如下:
public class KMP {
private final static int maxSize = 100;
private static int[] nextval = new int[maxSize]; //next数组
/*@function 构建模式串的next数组
*/
private static void getNext(String s){
int len = s.length();
char[] ch = s.toCharArray();
int j = 0, k = -1;
nextval[0] = -1;
while(j < len-1){
if(k==-1 || ch[j] == ch[k]){
j++;k++;
if(ch[j] != ch[k]) nextval[j]=k;
else nextval[j] = nextval[k];
}else{
k = nextval[k];
}
}
}
/*@function 计算字符匹配串的位置
*/
private static int KMPIndex(String s, String t){
int i = 0, j = 0;
int sl = s.length();
char[] sc = s.toCharArray();
int tl = t.length();
char[] tc = t.toCharArray();
while(i<sl && j<tl){
if(j==-1 || sc[i]==tc[j]){
i++; j++;
}
else{
j = nextval[j];
}
}
if(j>=tl)
return (i-tl);
else
return -1;
}
public static void main(String[] args){
String s = "abcaabbabcabaacbacba";
String t = "abcabaa";
getNext(t);
int i = KMPIndex(s,t);
System.out.println(i);
}
}
总结:慢慢吃透。