1. 什么是编辑距离?

编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

举个例子,给定 2 个字符串str_a=“yes”, str_b=“yeah”. 编辑距离是将 str_a 转换为 str_b 的最少操作次数,操作只允许如下 3 种:

  • 插入一个字符,例如:abc -> ab
  • 删除一个字符,例如:ab -> abc
  • 替换一个字符,例如:abc -> abd

那么从str_a到str_b的转换过程总共需要两步:yes > yeas > yeah 或者 yes > yea > yeah,所以str_a和str_b的编辑距离为2。

2. 如何计算编辑距离?

假设字符串a, 共m位,从a[1]a[m], 字符串b, 共m位, 从b[1]b[m]. 用二维数组D来保存由ab的编辑距离,其中D[i][j]表示字符串a[1]-a[i]转换为b[1]-b[i]的编辑距离.

2.1 递归算法

递归的思想需要可以将问题拆解,假设a[i]b[j]分别是字符串ab的最后一位,那么要把问题拆解,有三种选择:

  • a[i-1], b[j],即用a[1:i-1]继续和b[1:j]比较,删除了a[i],需要额外一步代价;
  • a[i-1], b[j-1],即用a[1:i-1]继续和b[1:j-1]比较,如果a[i]b[j]相等,那么无需额外代价,否则需要额外一步代价将a[i]修改为b[j]
  • a[i], b[j-1],即用a[1:i]继续和b[1:j-1]比较,删除了b[j],需要额外一步代价;

换一种说法,也就是说具体要拆解为哪一种,需要考虑a[i]b[j]的比值,以及这三种方法的代价。即如下递归规律:

  • a[i]等于b[j]时,比如 abcbbc,那么D[i][j] = D[i-1][j-1], 即等于abbb的编辑距离;
  • a[i]不等于b[j]时,D[i][j]等于如下3项的最小值:
    1. D[i-1][j] + 1,即删除a[i], 比如abcd -> abc的编辑距离 = abc -> abc 的编辑距离 + 1
    2. D[i][j-1] + 1,即插入b[j], 比如ab -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1
    3. D[i-1][j-1] + 1,将a[i]替换为b[j], 比如abd -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1

那么递归边界如何设定呢?

递归边界就是a[1:i]或者b[1:j]'为空的时候,即:

a[i][0] = i, b字符串为空,那么需要将a[1]-a[i]全部删除,所以编辑距离为i

a[0][j] = j, a字符串为空,那么需要向a插入b[1]-b[j],所以编辑距离为j

Python代码:

def recursive_edit_distance(str_a, str_b):
if len(str_a) == 0:
return len(str_b)
elif len(str_b) == 0:
return len(str_a)
elif str_a[len(str_a)-1] == str_b[len(str_b)-1]:
return recursive_edit_distance(str_a[0:-1], str_b[0:-1])
else:
return min([
recursive_edit_distance(str_a[:-1], str_b),
recursive_edit_distance(str_a, str_b[:-1]),
recursive_edit_distance(str_a[:-1], str_b[:-1])
]) + 1
str_a = "yes"
str_b = "yeah"
print(recursive_edit_distance(str_a, str_b))
# output is : 2

算法分析:该算法逻辑清晰,可读性较高,但是对于计算机而言却很不友好,时间复杂度高,随字符串长度呈指数级增长,而且递归算法的通病就是调用栈太深的时候,需要占用较多计算机资源。

2.2 动态规划

如果熟悉动态规划的同学,从上边的思路可以很容易推理出动态规划的递推公式:

if a[i] == b[j]:
edit_distance(a[i], b[j]) = edit_distance(a[i-1], b[j-1])
if a[i] != b[j]:
edit_distance(a[i], b[j]) = MIN (
edit_distance(a[i-1], b[j]) + 1, # 从a中删除a[i]
edit_distance(a[i], b[j-1]) + 1, # 向a中插入b[j]
edit_distance(a[i-1], b[j-1]) + 1 # 将a[i]修改为b[j]
)

转换为Python,也就是用二维数组D来记录从a向b的转换过程:

def edit_distance(str_a, str_b):
if str_a == str_b:
return 0
if len(str_a) == 0:
return len(str_b)
if len(str_b) == 0:
return len(str_a)
# 初始化dp矩阵
dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]
# 当a为空,距离和b的长度相同
for i in range(len(str_b) + 1):
dp[i][0] = i
# 当b为空,距离和a和长度相同
for j in range(len(str_a) + 1):
dp[0][j] = j
# 递归计算
for i in range(1, len(str_b) + 1):
for j in range(1, len(str_a) + 1):
dp[i][j] = dp[i-1][j-1]
if str_a[j-1] != str_b[i-1]:
dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1
return dp[len(str_b)][len(str_a)]
str_a = "yes"
str_b = "yeah"
print(edit_distance(str_a, str_b))
# output is : 2

2.3 动态规划, 优化空间复杂度

上边的算法中用二维数组来存储从a到b的距离,从递推公式来看,其实每一步dp[i][j]的计算只依赖a[i]和b[j]是否相等以及矩阵中的三个值

  • 左边的值,left = dp[i-1][j]
  • 左上角的值,left_up = dp[i-1][j-1]
  • 上边的值,up = dp[i][j-1]

其实我们可以用一维数组来达到上述目的,具体可以看Python代码:

def edit_distance(str_a, str_b):
if str_a == str_b:
return 0
if len(str_a) == 0:
return len(str_b)
if len(str_b) == 0:
return len(str_a)
dp = [x for x in range(len(str_b) + 1)]
for i in range(1, len(str_a) + 1):
# 注意每次left_up和dp[0]的初始化
left_up = i - 1
dp[0] = i # 当前轮最左的left
for j in range(1, len(str_b) + 1):
up= dp[j] # j是上一轮的值,即up
left = dp[j-1] # j-1是当前轮的值,即left
if str_a[i-1] == str_b[j-1]:
dp[j] = left_up
else:
dp[j] = min([left, up, left_up]) + 1
left_up = up # 每移动一步,上一轮的up就变成了left_up
return dp[len(str_b)]
str_a = "yes"
str_b = "yeah"
print(edit_distance(str_a, str_b))
# output is : 2

2.4 打印编辑过程

def edit_distance_Omn(str_a, str_b):
if str_a == str_b:
return 0
if len(str_a) == 0:
return len(str_b)
if len(str_b) == 0:
return len(str_a)
dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]
for i in range(len(str_b) + 1):
dp[i][0] = i
for j in range(len(str_a) + 1):
dp[0][j] = j
for i in range(1, len(str_b) + 1):
for j in range(1, len(str_a) + 1):
dp[i][j] = dp[i-1][j-1]
if str_a[j-1] != str_b[i-1]:
dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1 #打印完整路径矩阵(这一步非必要)
for i in range(len(str_b) + 1):
for j in range(len(str_a) + 1):
print dp[i][j],
print
# 准备倒着查询编辑路径,从右下角开始
i , j = len(str_b), len(str_a)
op_list = [] # 记录编辑操作
while i > 0 and j > 0:
if dp[i][j] == dp[i-1][j-1]:
op_list.append("keep [ {} ]".format(str_b[i-1]))
i, j = i-1, j-1
continue
if dp[i][j] == dp[i-1][j] + 1:
op_list.append("remove [ {} ]".format(str_b[i-1]))
i, j = i-1, j
continue
if dp[i][j] == dp[i-1][j-1] + 1:
op_list.append("change [ {} ] to [ {} ]".format(str_b[i-1], str_a[j-1]))
i, j = i-1, j-1
continue
if dp[i][j] == dp[i][j-1] + 1:
op_list.append("insert [ {} ]".format(str_a[j-1]))
i, j = i, j-1
for i in range(len(op_list)):
print op_list[len(op_list)-i-1]
return dp[len(str_b)][len(str_a)]
str_a = "yesxxxxxx"
str_b = "yeahxxxxxhh"
print(edit_distance(str_a, str_b))

输出

0 1 2 3 4 5 6 7 8 9
1 0 1 2 3 4 5 6 7 8
2 1 0 1 2 3 4 5 6 7
3 2 1 1 2 3 4 5 6 7
4 3 2 2 2 3 4 5 6 7
5 4 3 3 2 2 3 4 5 6
6 5 4 4 3 2 2 3 4 5
7 6 5 5 4 3 2 2 3 4
8 7 6 6 5 4 3 2 2 3
9 8 7 7 6 5 4 3 2 2
10 9 8 8 7 6 5 4 3 3
11 10 9 9 8 7 6 5 4 4
keep [ y ]
keep [ e ]
change [ a ] to [ s ]
change [ h ] to [ x ]
keep [ x ]
keep [ x ]
keep [ x ]
keep [ x ]
keep [ x ]
remove [ h ]
remove [ h ]
4

【ZH奶酪】如何用Python实现编辑距离?的更多相关文章

  1. 【ZH奶酪】为什么Python不需要函数重载?

    函数重载的作用是什么? 函数重载主要是为了解决两个问题 可变参数类型 可变参数个数 另外,一个基本的设计原则是,仅仅当两个函数除了参数类型和参数个数不同以外,其功能是完全相同的,此时才使用函数重载,如 ...

  2. ZH奶酪:【Python】random模块

    Python中的random模块用于随机数生成,对几个random模块中的函数进行简单介绍.如下:random.random() 用于生成一个0到1的随机浮点数.如: import random ra ...

  3. 如何用python“优雅的”调用有道翻译?

    前言 其实在以前就盯上有道翻译了的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争”的过程! 当然,本文仅 ...

  4. 如何用python抓取js生成的数据 - SegmentFault

    如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞 踩 收藏 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

  5. 如何用python下载一张图片

    如何用python下载一张图片 这里要用到的主要工具是requests这个工具,需要先安装这个库才能使用,该库衍生自urllib这个库,但是要比它更好用.多数人在做爬虫的时候选择它,是个不错的选择. ...

  6. ZH奶酪:Ubuntu 14.04配置LAMP(Linux、Apache、MySQL、PHP)

    ZH奶酪:Ubuntu 14.04安装LAMP(Linux,Apache,MySQL,PHP) 之前已经介绍过LAMP的安装,这边文章主要讲解一下LAMP的配置. 1.配置Apache (1)调整Ke ...

  7. [置顶] 如何用PYTHON代码写出音乐

    如何用PYTHON代码写出音乐 什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...

  8. 以下三种下载方式有什么不同?如何用python模拟下载器下载?

    问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件 但是,使用下载器下载却是完整文件 而当我尝试使用python下载 ...

  9. 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)

    小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码) Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在GitHub上分享了自己如何使用P ...

随机推荐

  1. python 全栈开发,Day31(re模块)

    回顾昨天的内容 异常处理 try except 一定要在except之后写一些提示或者处理的内容 try: '''可能会出现异常的代码''' except ValueError: '''打印一些提示或 ...

  2. For each loop in Native C++

    今天发现 for each 语法居然可以直接编译通过,之前还以为只有开了/clr才可以支持.查了一下资料发现ms从vs2005就已经支持了.虽然不符合标准不过用着确实方便啊,必须记录一下. 具体看这里 ...

  3. NDK 开发实例一(Android.mk环境配置下)

         在我写这篇文章的时候,Android Studio已经是2.3版本了,已经集成CMake 编译工具, 用户只需在 新建项目的时候,添加选项(Include C++ support),Andr ...

  4. 001 LRU-缓存淘汰算法

    1.介绍 LRU是LeastRecentlyUsed近期最少使用算法.内存管理的一种页面置换算法,对于在内存中但又不用的数据块(内存块)叫做LRU,Oracle会根据哪些数据属于LRU而将其移出内存而 ...

  5. 算法竞赛入门经典-训练指南(10881-Piotr's Ants)

    题目大意: 一根长度为L的木棍一堆蚂蚁爬,向左或向右,速度都为1,若两蚂蚁碰撞则同时转头(转身时间忽略不计),问T时间之后每只蚂蚁的位置: 输入:t,(t个样例),每个样例输入 L,T,n,接下来是n ...

  6. P1590 失踪的7

    P1590 失踪的7进制转换的题目,如果把一个10进制的数当成9进制,相当于没有9这个数字,题目失踪了7,但是无所谓.如果当前的大于7,它就跳过了一个数字,向左移动1位. #include<io ...

  7. MySQL 5.7.14 net start mysql 服务无法启动

    解决方法: 1.mysqld  --initialize 初始化data目录 2.重新输入net start mysql命令 补充,服务停止的方法:net stop mysql

  8. ISO9000和CMM

    ISO9000和CMM,谁更适合软件开发? ISO9000 和 CMM 是国际上通用的软件质量评估和管理方法.二者有很多相似之处,它们的实施都可以改变软件开发的不规范.文档不齐.维护跟不上.质量漏洞多 ...

  9. 硬件篇之MMU

    <背景> MMU即内存管理单元(Memory Manage Unit),是一个与软件密切相关的硬件部件,也是理解linux等操作系统内核机制的最大障碍之一.可以说,不懂MMU使很多人一直停 ...

  10. 51Nod.1237.最大公约数之和 V3(莫比乌斯反演 杜教筛 欧拉函数)

    题目链接 \(Description\) \(n\leq 10^{10}\),求 \[\sum_{i=1}^n\sum_{j=1}^ngcd(i,j)\ mod\ (1e9+7)\] \(Soluti ...