代码随想录算法训练营第10天

  • 459.重复的子字符串
  • 移动匹配
  • kmp
  • 字符串总结
  • 什么是字符串
  • python判断字符串子串的方法总结(kmp的库函数)
  • 双指针总结
  • 反转系列
  • KMP


459.重复的子字符串

暴力的解法, 就是一个for循环获取 子串的终止位置, 然后判断子串是否能重复构成字符串,又嵌套一个for循环,所以是O(n^2)的时间复杂度。

移动匹配

当一个字符串由相同的子串构成的时候,它肯定前后有相同的子串

python查找汉字字符串中重复字符串 python查找重复出现的字符串_leetcode


那么既然前面有相同的子串,后面有相同的子串,用 s + s,这样组成的字符串中,后面的子串做前串,前后的子串做后串,就一定还能组成一个s,如图:

python查找汉字字符串中重复字符串 python查找重复出现的字符串_算法_02


移动匹配解这道题的思路就是把字符串s ,变成 s + s, 但是要去除首尾(如果不去首尾一定能搜出自己来),然后在里面去搜有没有s。

def repeatedSubstringPattern(self, s: str) -> bool:
        ss = s+s 
        ss = ss[1:len(s)*2-1]
        return s in ss

kmp

在一个串中查找是否出现过另一个串,这是KMP的看家本领。那么寻找重复子串怎么也涉及到KMP算法了呢?

KMP算法中next数组为什么遇到字符不匹配的时候可以找到上一个匹配过的位置继续匹配,靠的是有计算好的前缀表。 前缀表里,统计了各个位置为终点字符串的最长相同前后缀的长度。

在由重复子串组成的字符串中,最长相等前后缀不包含的子串就是最小重复子串

举个例子:

s:abababab

python查找汉字字符串中重复字符串 python查找重复出现的字符串_leetcode_03


简单推导:

python查找汉字字符串中重复字符串 python查找重复出现的字符串_leetcode_04


步骤一:因为 这是相等的前缀和后缀,t[0] 与 k[0]相同, t1 与 k1相同,所以 s[0] 一定和 s[2]相同,s1 一定和 s[3]相同,即:,s[0]s1与s[2]s[3]相同 。

步骤二: 因为在同一个字符串位置,所以 t[2] 与 k[0]相同,t[3] 与 k1相同。

步骤三: 因为 这是相等的前缀和后缀,t[2] 与 k[2]相同 ,t[3]与k[3] 相同,所以,s[2]一定和s[4]相同,s[3]一定和s[5]相同,即:s[2]s[3] 与 s[4]s[5]相同。

步骤四:循环往复。

所以字符串s,s[0]s1与s[2]s[3]相同, s[2]s[3] 与 s[4]s[5]相同,s[4]s[5] 与 s[6]s[7] 相同。

正是因为 最长相等前后缀的规则,当一个字符串由重复子串组成的,最长相等前后缀不包含的子串就是最小重复子串

拿abababab举例子,它的next数组就是[0,0,1,2,3,4,5,6], 这种重叠的字符串的最长相等前后缀就在next[len-1] 就是数组末尾取得, 拿len- 最长相等前后缀即可得到最小的重复单元 ab 的长度。
如果说原字符串长度能够整除它,就说明它是由重复子字符串组成的
也就是:

if next[-1] != 0 and len(s)%(len(s) - next[-1]) == 0:
	return True

但是要注意,需要next[-1]不为0,不然 len % len 必定等于0
整体代码如下:

class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        next = self.getnext(s)
        if next[-1] != 0 and len(s)%(len(s) - next[-1]) == 0:
            return True
        return False
    
    def getnext(self,s):
        next = [0] * len(s)
        j = 0
        for i in range(1, len(s)):
            while j > 0 and s[j] != s[i]:
                j = next[j-1]
            if s[j] == s[i]:
                j += 1
            next[i] = j
        return next

字符串总结

什么是字符串

字符串是若干字符组成的有限序列,也可以理解为是一个字符数组,但是很多语言对字符串做了特殊的规定,接下来我来说一说C/C++中的字符串。

在C语言中,把一个字符串存入一个数组时,也把结束符 '\0’存入数组,并以此作为该字符串是否结束的标志。

例如这段代码:

char a[5] = "asd";
for (int i = 0; a[i] != '\0'; i++) {
}

在C++中,提供一个string类,string类会提供 size接口,可以用来判断string类字符串是否结束,就不用’\0’来判断是否结束。

例如这段代码:

string a = "asd";
for (int i = 0; i < a.size(); i++) {
}

那么vector< char > 和 string 又有什么区别呢?

其实在基本操作上没有区别,但是 string提供更多的字符串处理的相关接口,例如string 重载了+,而vector却没有。

所以想处理字符串,我们还是会定义一个string类型。

python判断字符串子串的方法总结(kmp的库函数)

  1. in
    print(b in a)
  2. find()
    从左到右查找子串,存在则输出子串首字符的索引值,不存在输出-1
    print(a.find(b))
  3. rfind()
    从右到左查找子串,从后面找到第一个存在的子串首字符的索引,不存在输出-1
  4. index()
    从左到右找子串的首字母索引值 ,不存在会报错
  5. rindex()
    从右到左找到子串的首字母索引,不存在会报错
  6. count()
    计数母串含有多少子串
a = 'love you you'
b = 'you'
c = 'no'

print(b in a)       #True
print(c in a)       #False

print(a.find(b))    #  5
print(a.find(c))    # -1

print(a.rfind(b))   # 9
print(a.rfind(c))   # -1

print(a.index(b))   # 5
#print(a.index(c))  #ValueError: substring not found

print(a.rindex(b))  # 9
print(a.rindex(c))  #ValueError: substring not found

print(a.count(b))   # 2
print(a.count(c))   # 0

双指针总结

在344.反转字符串,我们使用双指针法实现了反转字符串的操作,双指针法在数组,链表和字符串中很常用。 接着在字符串:替换空格,同样还是使用双指针法在时间复杂度O(n)的情况下完成替换空格。其实很多数组填充类的问题,都可以先预先给数组扩容带填充后的大小,然后在从后向前进行操作。 那么针对数组删除操作的问题,其实在27.移除元素中就已经提到了使用双指针法进行移除操作。 同样的道理在151.翻转字符串里的单词中我们使用O(n)的时间复杂度,完成了删除冗余空格。

反转系列

541.反转字符串2中,一些同学可能为了处理逻辑:每隔2k个字符的前k的字符,写了一堆逻辑代码或者再搞一个计数器,来统计2k,再统计前k个字符。

其实当需要固定规律一段一段去处理字符串的时候,要想想在在for循环的表达式上做做文章。

只要让 i += (2 * k),i 每次移动 2 * k 就可以了,然后判断是否需要有反转的区间。

因为要找的也就是每2 * k 区间的起点,这样写程序会高效很多。

151.反转字符串里的单词中要求翻转字符串里的单词,这道题目可以说是综合考察了字符串的多种操作。是考察字符串的好题。

这道题目通过 先整体反转再局部反转,实现了反转字符串里的单词。

剑指Offer58-II.左旋转字符串描述我们通过先局部反转再整体反转达到了左旋的效果。

KMP

那么使用KMP可以解决两类经典问题:

  1. 匹配问题:28.实现strStr
  2. 重复子串问题:459.重复的子字符串 再一次强调了什么是前缀,什么是后缀,什么又是最长相等前后缀。

前缀:指不包含最后一个字符的所有以第一个字符开头的连续子串。

后缀:指不包含第一个字符的所有以最后一个字符结尾的连续子串。

然后针对前缀表到底要不要减一,这其实是不同KMP实现的方式,我们在kmp精讲针对之前两个问题,分别给出了两个不同版本的的KMP实现。

其中主要理解j=next[j-1]这一步最为关键!