python 编辑距离输出2者编辑距离算法 python

转载

IT剑客风云 2023-08-17 16:46:25

文章标签 python 编辑距离输出2者 python 编辑距离编辑距离字符串 Python 文章分类 Python 后端开发

算法原理

在计算文本的相似性时，经常会用到编辑距离。编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。通常来说，编辑距离越小，两个文本的相似性越大。这里的编辑操作主要包括三种：

插入：将一个字符插入某个字符串；

删除：将字符串中的某个字符删除；

替换：将字符串中的某个字符替换为另外一个字符。

下面通过示例来看一下。

将字符串batyu变为beauty，编辑距离是多少呢？这需要经过如下步骤：

1、batyu变为beatyu（插入字符e）

2、beatyu变为beaty（删除字符u）

3、beaty变为beauty（插入字符u）

所以编辑距离为3。

那么，如何用Python计算编辑距离呢？我们可以从较为简单的情况进行分析。

当两个字符串都为空串，那么编辑距离为0；

当其中一个字符串为空串时，那么编辑距离为另一个非空字符串的长度；

当两个字符串均为非空时(长度分别为 i 和 j )，取以下三种情况最小值即可：

1、长度分别为 i-1 和 j 的字符串的编辑距离已知，那么加1即可；

2、长度分别为 i 和 j-1 的字符串的编辑距离已知，那么加1即可；

3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知，此时考虑两种情况，若第i个字符和第j个字符不同，那么加1即可；如果不同，那么不需要加1。

很明显，上述算法的思想即为动态规划。

求长度为m和n的字符串的编辑距离，首先定义函数——edit(i, j)，它表示第一个长度为i的字符串与第二个长度为j的字符串之间的编辑距离。动态规划表达式可以写为：

if i == 0 且 j == 0，edit(i, j) = 0

if （i == 0 且 j > 0 ）或者（i > 0 且j == 0），edit(i, j) = i + j

if i ≥ 1 且 j ≥ 1 ，edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + d(i, j) }，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，d(i, j) = 1；否则，d(i, j) = 0。

最终的编辑距离即为edit(m,n)。上述示例的edit矩阵可以表示如下：

python 编辑距离输出2者编辑距离算法 python_python 编辑距离

python 编辑距离输出2者编辑距离算法 python_编辑距离_02

Python代码实现

Talk is cheap. Show me the code. Python代码也是极其简洁的，这也是动态规划的魅力：

python 编辑距离输出2者编辑距离算法 python_python 编辑距离输出2者_03

扩展

那么，Python功能这么强大，有没有计算编辑距离的包呢？

答案是肯定的，Python中的Levenshtein包可以用来计算编辑距离，安装方法很简单，直接安装即可：

pip install python-Levenshtein

这样我们就可以引入包直接计算编辑距离了：

python 编辑距离输出2者编辑距离算法 python_python 编辑距离输出2者_04

有同学可能想计算汉字之间的编辑距离，如下：

python 编辑距离输出2者编辑距离算法 python_字符串_05

得到的结果是3而不是1。这是因为在字符串编码为utf-8时，一个汉字占用3个字节。改为unicode编码即可得到1，即：

python 编辑距离输出2者编辑距离算法 python_python 编辑距离_06

那么，Levenshtein包中还有没有其它计算距离的方法呢？

这个包有很多计算距离的方法，包括如下：

hamming(str1, str2)，计算长度相等的字符串str1和str2的汉明距离，即为两个等长字串之间对应位置上不同字符的个数。

ratio(str1, str2)，计算莱文斯坦比。计算公式 r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离。注意这里是类编辑距离，在类编辑距离中删除、插入依然+1，但是替换+2。

jaro(str1, str2)，jaro_winkler(str1, str2)等等。

总结

可以用动态规划算法求解字符串的编辑距离。

PyPi包Levenshtein可以用来计算字符串的编辑距离，也可以计算其它类型的距离。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：VBA神经网络神经网络bn

下一篇：Python list 按列sum python中列表list的用法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 编辑距离 输出2者 编辑距离算法 python

python 编辑距离 输出2者 编辑距离算法 python

51CTO博客

python 编辑距离输出2者编辑距离算法 python

python 编辑距离输出2者编辑距离算法 python