字符串 S 由小写字母组成。我们要把这个字符串划分为尽可能多的片段,同一个字母只会出现在其中的一个片段。返回一个表示每个字符串片段的长度的列表。

 

示例 1:

输入:S = "ababcbacadefegdehijhklij"
输出:[9,7,8]
解释:
划分结果为 "ababcbaca", "defegde", "hijhklij"。
每个字母最多出现在一个片段中。
像 "ababcbacadefegde", "hijhklij" 的划分是错误的,因为划分的片段数较少。

 

提示:

  • S的长度在[1, 500]之间。
  • S只包含小写字母 'a''z'
">

字符串 S 由小写字母组成。我们要把这个字符串划分为尽可能多的片段,同一个字母只会出现在其中的一个片段。返回一个表示每个字符串片段的长度的列表。

 

示例 1:

输入:S = "ababcbacadefegdehijhklij"
输出:[9,7,8]
解释:
划分结果为 "ababcbaca", "defegde", "hijhklij"。
每个字母最多出现在一个片段中。
像 "ababcbacadefegde", "hijhklij" 的划分是错误的,因为划分的片段数较少。

 

提示:

  • S的长度在[1, 500]之间。
  • S只包含小写字母 'a''z'

贪心算法 + 双指针

由于同一个字母只能出现在同一个片段,显然同一个字母的第一次出现的下标位置和最后一次出现的下标位置必须出现在同一个片段。因此需要遍历字符串,得到每个字母最后一次出现的下标位置。

在得到每个字母最后一次出现的下标位置之后,可以使用贪心算法和双指针的方法将字符串划分为尽可能多的片段,具体做法如下。

  • 从左到右遍历字符串,遍历的同时维护当前片段的开始下标 start\textit{start}start 和结束下标 end\textit{end}end,初始时 start=end=0\textit{start}=\textit{end}=0start=end=0

  • 对于每个访问到的字母 ccc,得到当前字母的最后一次出现的下标位置 endc\textit{end}_cendc,则当前片段的结束下标一定不会小于 endc\textit{end}_cendc,因此令 end=max⁡(end,endc)\textit{end}=\max(\textit{end},\textit{end}_c)end=max(end,endc)

  • 当访问到下标 end\textit{end}end 时,当前片段访问结束,当前片段的下标范围是 [start,end][\textit{start},\textit{end}][start,end],长度为 end−start+1\textit{end}-\textit{start}+1endstart+1,将当前片段的长度添加到返回值,然后令 start=end+1\textit{start}=\textit{end}+1start=end+1,继续寻找下一个片段。

  • 重复上述过程,直到遍历完字符串。

上述做法使用贪心的思想寻找每个片段可能的最小结束下标,因此可以保证每个片段的长度一定是符合要求的最短长度,如果取更短的片段,则一定会出现同一个字母出现在多个片段中的情况。由于每次取的片段都是符合要求的最短的片段,因此得到的片段数也是最多的。

由于每个片段访问结束的标志是访问到下标 end\textit{end}end,因此对于每个片段,可以保证当前片段中的每个字母都一定在当前片段中,不可能出现在其他片段,可以保证同一个字母只会出现在同一个片段。

Code

from typing import List


class Solution:
    def partitionLabels(self, S: str) -> List[int]:
        last = [0 for _ in range(26)]
        for i, ch in enumerate(S):
            last[ord(ch) - ord('a')] = i
        partition = list()
        start = end = 0
        for i, ch in enumerate(S):
            end = max(end, last[ord(ch) - ord('a')])
            if i == end:
                partition.append(end - start + 1)
                start = end + 1
        return partition

复杂度分析

  • 时间复杂度:O(n)O(n)O(n),其中 nnn 是字符串的长度。需要遍历字符串两次,第一次遍历时记录每个字母最后一次出现的下标位置,第二次遍历时进行字符串的划分。

  • 空间复杂度:O(Σ)O(\Sigma)O(Σ),其中 Σ\SigmaΣ 是字符串中的字符集大小。这道题中,字符串只包含小写字母,因此 Σ=26\Sigma=26Σ=26