编程之美(3-3)

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:
1. 修改一个字符 (如 把“a”替换为“b”)。
2. 增加一个字符 (如把“abdd”变为“aebdd”)。
3. 删除一个字符(如把“travelling”变为“traveling”)。
比如,对于“abcdefg”和“abcdef”两个字符串来说,我们认为可以通过增加/减少一个“g”的方式来达到目的。上面的两种方案,都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的距离,而相似度等于“距离+1”的倒数。也就是说,“abcdefg”和“abcdef”的距离为1,相似度为1 / 2 = 0.5。给定任意两个字符串,你是否能写出一个算法来计算出它们的相似度呢。

def compStrSimilarity(str1, str2):
    if ''==str1 or ''==str2:
        return abs(len(str1)-len(str2))
    elif str1==str2:
        return 0
    else:
        if str1[0] == str2[0]:
            return compStrSimilarity(str1[1:],str2[1:])
        else:
            a = compStrSimilarity(str1[1:],str2[1:])
            b = compStrSimilarity(str1[1:],str2)
            c = compStrSimilarity(str1,str2[1:])
            return (min(a,b,c) + 1)

优化的改进算法,通过存储子问题的解,提升效率。

valueMap = {}
def isSaved(pos1,pos2):
    if str(pos1)+str(pos2) in valueMap:
        return True
    else:
        return False
def saveValue(pos1,pos2,value):
    valueMap[str(pos1)+str(pos2)] = value

def getValue(pos1,pos2):
    return valueMap[str(pos1)+str(pos2)]
def compStrSimilarityOpt(str1,pos1,str2,pos2):
    if isSaved(pos1,pos2):
        return getValue(pos1,pos2)
    if ''==str1 or ''==str2:
        return abs(len(str1)-len(str2))
    elif str1==str2:
        return 0
    else:
        if str1[0] == str2[0]:
            a = compStrSimilarityOpt(str1[1:],pos1+1,str2[1:],pos2+1)
            saveValue(pos1+1,pos2+1,a)
            return a
        else:
            a = compStrSimilarityOpt(str1[1:],pos1+1,str2[1:],pos2+1)
            saveValue(pos1+1,pos2+1,a)
            b = compStrSimilarityOpt(str1[1:],pos1+1,str2,pos2)
            saveValue(pos1+1,pos2,b)
            c = compStrSimilarityOpt(str1,pos1,str2[1:],pos2+1)
            saveValue(pos1,pos2+1,c)
            return (min(a,b,c) + 1)