1. 什么是编辑距离?

编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

举个例子，给定 2 个字符串str_a=“yes”, str_b=“yeah”. 编辑距离是将 str_a 转换为 str_b 的最少操作次数，操作只允许如下 3 种：

插入一个字符，例如：abc -> ab
删除一个字符，例如：ab -> abc
替换一个字符，例如：abc -> abd

那么从str_a到str_b的转换过程总共需要两步：yes > yeas > yeah 或者 yes > yea > yeah，所以str_a和str_b的编辑距离为2。

2. 如何计算编辑距离？

假设字符串a, 共m位，从a[1]到a[m], 字符串b, 共m位, 从b[1]到b[m]. 用二维数组D来保存由a向b的编辑距离，其中D[i][j]表示字符串a[1]-a[i]转换为b[1]-b[i]的编辑距离.

2.1 递归算法

递归的思想需要可以将问题拆解，假设a[i]和b[j]分别是字符串a和b的最后一位，那么要把问题拆解，有三种选择：

a[i-1], b[j]，即用a[1:i-1]继续和b[1:j]比较，删除了a[i]，需要额外一步代价；
a[i-1], b[j-1]，即用a[1:i-1]继续和b[1:j-1]比较，如果a[i]和b[j]相等，那么无需额外代价，否则需要额外一步代价将a[i]修改为b[j]；
a[i], b[j-1]，即用a[1:i]继续和b[1:j-1]比较，删除了b[j]，需要额外一步代价；

换一种说法，也就是说具体要拆解为哪一种，需要考虑a[i]和b[j]的比值，以及这三种方法的代价。即如下递归规律：

当a[i]等于b[j]时，比如 abc和bbc，那么D[i][j] = D[i-1][j-1], 即等于ab和bb的编辑距离；
当a[i]不等于b[j]时，D[i][j]等于如下3项的最小值：
1. D[i-1][j] + 1，即删除a[i]，比如abcd -> abc的编辑距离 = abc -> abc 的编辑距离 + 1
2. D[i][j-1] + 1，即插入b[j]，比如ab -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1
3. D[i-1][j-1] + 1，将a[i]替换为b[j]，比如abd -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1

那么递归边界如何设定呢？

递归边界就是a[1:i]或者b[1:j]'为空的时候，即：

a[i][0] = i, b字符串为空，那么需要将a[1]-a[i]全部删除，所以编辑距离为i

a[0][j] = j, a字符串为空，那么需要向a插入b[1]-b[j]，所以编辑距离为j

Python代码:

def recursive_edit_distance(str_a, str_b):

  if len(str_a) == 0:

    return len(str_b)

  elif len(str_b) == 0:

    return len(str_a)

  elif str_a[len(str_a)-1] == str_b[len(str_b)-1]:

    return recursive_edit_distance(str_a[0:-1], str_b[0:-1])

  else:

    return min([

      recursive_edit_distance(str_a[:-1], str_b),

      recursive_edit_distance(str_a, str_b[:-1]),

      recursive_edit_distance(str_a[:-1], str_b[:-1])

    ]) + 1

str_a = "yes"

str_b = "yeah"

print(recursive_edit_distance(str_a, str_b))

# output is : 2

算法分析：该算法逻辑清晰，可读性较高，但是对于计算机而言却很不友好，时间复杂度高，随字符串长度呈指数级增长，而且递归算法的通病就是调用栈太深的时候，需要占用较多计算机资源。

2.2 动态规划

如果熟悉动态规划的同学，从上边的思路可以很容易推理出动态规划的递推公式：

if a[i] == b[j]:

    edit_distance(a[i], b[j]) = edit_distance(a[i-1], b[j-1])

if a[i] != b[j]:

    edit_distance(a[i], b[j]) = MIN (

        edit_distance(a[i-1], b[j]) + 1,   # 从a中删除a[i]

        edit_distance(a[i], b[j-1]) + 1,  # 向a中插入b[j]

        edit_distance(a[i-1], b[j-1]) + 1  # 将a[i]修改为b[j]

    )

转换为Python，也就是用二维数组D来记录从a向b的转换过程：

def edit_distance(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

# 初始化dp矩阵

  dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]

# 当a为空，距离和b的长度相同

  for i in range(len(str_b) + 1):

    dp[i][0] = i

# 当b为空，距离和a和长度相同

  for j in range(len(str_a) + 1):

    dp[0][j] = j

# 递归计算

  for i in range(1, len(str_b) + 1):

    for j in range(1, len(str_a) + 1):

      dp[i][j] = dp[i-1][j-1]

      if str_a[j-1] != str_b[i-1]:

        dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1

  return dp[len(str_b)][len(str_a)]

str_a = "yes"

str_b = "yeah"

print(edit_distance(str_a, str_b))

# output is : 2

2.3 动态规划, 优化空间复杂度

上边的算法中用二维数组来存储从a到b的距离，从递推公式来看，其实每一步dp[i][j]的计算只依赖a[i]和b[j]是否相等以及矩阵中的三个值：

左边的值，left = dp[i-1][j]
左上角的值，left_up = dp[i-1][j-1]
上边的值，up = dp[i][j-1]

其实我们可以用一维数组来达到上述目的，具体可以看Python代码：

def edit_distance(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

  dp = [x for x in range(len(str_b) + 1)]

  for i in range(1, len(str_a) + 1):

    # 注意每次left_up和dp[0]的初始化

    left_up = i - 1

    dp[0] = i # 当前轮最左的left

    for j in range(1, len(str_b) + 1):

      up= dp[j]  # j是上一轮的值，即up

      left = dp[j-1]  # j-1是当前轮的值，即left

      if str_a[i-1] == str_b[j-1]:

        dp[j] = left_up

      else:

        dp[j] = min([left, up, left_up]) + 1

      left_up = up # 每移动一步，上一轮的up就变成了left_up

  return dp[len(str_b)]

str_a = "yes"

str_b = "yeah"

print(edit_distance(str_a, str_b))

# output is : 2

2.4 打印编辑过程

def edit_distance_Omn(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

  dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]

  for i in range(len(str_b) + 1):

    dp[i][0] = i

  for j in range(len(str_a) + 1):

    dp[0][j] = j

  for i in range(1, len(str_b) + 1):

    for j in range(1, len(str_a) + 1):

      dp[i][j] = dp[i-1][j-1]

      if str_a[j-1] != str_b[i-1]:

        dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1

  #打印完整路径矩阵（这一步非必要）

  for i in range(len(str_b) + 1):

    for j in range(len(str_a) + 1):

      print dp[i][j],

    print

  # 准备倒着查询编辑路径，从右下角开始

  i , j = len(str_b), len(str_a)

  op_list = []  # 记录编辑操作

  while i > 0 and j > 0:

    if dp[i][j] == dp[i-1][j-1]:

      op_list.append("keep [ {} ]".format(str_b[i-1]))

      i, j = i-1, j-1

      continue

    if dp[i][j] == dp[i-1][j]  + 1:

      op_list.append("remove [ {} ]".format(str_b[i-1]))

      i, j = i-1, j

      continue

    if dp[i][j] == dp[i-1][j-1] + 1:

      op_list.append("change [ {} ] to [ {} ]".format(str_b[i-1], str_a[j-1]))

      i, j = i-1, j-1

      continue

    if dp[i][j] == dp[i][j-1] + 1:

      op_list.append("insert [ {} ]".format(str_a[j-1]))

      i, j = i, j-1

  for i in range(len(op_list)):

    print op_list[len(op_list)-i-1]

  return dp[len(str_b)][len(str_a)]

str_a = "yesxxxxxx"

str_b = "yeahxxxxxhh"

print(edit_distance(str_a, str_b))

输出

0 1 2 3 4 5 6 7 8 9

1 0 1 2 3 4 5 6 7 8

2 1 0 1 2 3 4 5 6 7

3 2 1 1 2 3 4 5 6 7

4 3 2 2 2 3 4 5 6 7

5 4 3 3 2 2 3 4 5 6

6 5 4 4 3 2 2 3 4 5

7 6 5 5 4 3 2 2 3 4

8 7 6 6 5 4 3 2 2 3

9 8 7 7 6 5 4 3 2 2

10 9 8 8 7 6 5 4 3 3

11 10 9 9 8 7 6 5 4 4

keep [ y ]

keep [ e ]

change [ a ] to [ s ]

change [ h ] to [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

remove [ h ]

remove [ h ]

4

【ZH奶酪】如何用Python实现编辑距离？的更多相关文章

【ZH奶酪】为什么Python不需要函数重载？
函数重载的作用是什么? 函数重载主要是为了解决两个问题可变参数类型可变参数个数另外,一个基本的设计原则是,仅仅当两个函数除了参数类型和参数个数不同以外,其功能是完全相同的,此时才使用函数重载,如 ...
ZH奶酪：【Python】random模块
Python中的random模块用于随机数生成,对几个random模块中的函数进行简单介绍.如下:random.random() 用于生成一个0到1的随机浮点数.如: import random ra ...
如何用python“优雅的”调用有道翻译？
前言其实在以前就盯上有道翻译了的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争”的过程! 当然,本文仅 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
如何用python下载一张图片
如何用python下载一张图片这里要用到的主要工具是requests这个工具,需要先安装这个库才能使用,该库衍生自urllib这个库,但是要比它更好用.多数人在做爬虫的时候选择它,是个不错的选择. ...
ZH奶酪：Ubuntu 14.04配置LAMP（Linux、Apache、MySQL、PHP）
ZH奶酪:Ubuntu 14.04安装LAMP(Linux,Apache,MySQL,PHP) 之前已经介绍过LAMP的安装,这边文章主要讲解一下LAMP的配置. 1.配置Apache (1)调整Ke ...
[置顶] 如何用PYTHON代码写出音乐
如何用PYTHON代码写出音乐什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...
以下三种下载方式有什么不同？如何用python模拟下载器下载？
问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件但是,使用下载器下载却是完整文件而当我尝试使用python下载 ...
小姐姐带你一起学：如何用Python实现7种机器学习算法（附代码）
小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码) Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在GitHub上分享了自己如何使用P ...

随机推荐

cf932d 树上倍增
题解链接 https://blog.csdn.net/my_sunshine26/article/details/79338601 感觉能做,但是倍增还不是很熟悉,回头再补
Windows任务计划 & Linux crontab定时自动任务
如何在windows服务器上面创建定时任务https://blog.csdn.net/shiyong1949/article/details/52779359 Windows 10系统下如何设置计划任 ...
[转] Optimizely:在线网站A/B测试平台
Optimizely:在线网站A/B测试平台是一家提供 A/B 测试服务的公司.A/B 测试能够对比不同版本的设计,选取更吸引用户眼球的那一款,从而带来更为优化的个人体验.让网站所有者易于对不同版本的 ...
Unity3D 中的面向对象设计 {游戏对象(创建、删除、获取)，以及添加修改组件}
一.创建游戏对象游戏对象分三种:(1) 将物体模型等资源由Project工程面板拖拽到Hierarchy层次面板中 (2) 由GameObject菜单创建Unity自带的游戏对象,如Cube.Cam ...
基于C++11实现线程池的工作原理
目录基于C++11实现线程池的工作原理. 简介线程池的组成 1.线程池管理器 2.工作线程 3.任务接口, 4.任务队列线程池工作的四种情况. 1.主程序当前没有任务要执行,线程池中的任务队列为 ...
虚拟机克隆后导致两台机器的IP都不显示的解决方法
centos7中输入ifconfig出现ens33,没有eth0,也没有ip,不能上网,输入ifconfig后如下图之前在网上也找了很多的方法,比如删除文件70-persistent-ipoib.r ...
模拟页面获取的php数据(二)
<?php return [ "aData" => [//通勤方式 "trafficType" => [ 0 => [ "ty ...
maven 多个jar包版本依赖问题
maven 中使用jar包的多个版本容易造成依赖问题,解决问题的方式可以将使用jar包的版本排除掉,比如dubbo使用netty 4.0.33版本可以将dubbo排除掉 netty依赖,这样其他ja ...
AGC 027C.ABland Yard(拓扑/二分图)
题目链接 \(Description\) 给定一张图(可能存在自环),每个点上有A或B.求是否存在一条路径,使得在上面不断走,能够得到所有AB串组合(可以重复经过点). \(n\leq2\times1 ...
LOJ.6281.数列分块入门5(分块区间开方)
题目链接 int内的数(也不非得是int)最多开方4.5次就变成1了,所以还不是1就暴力,是1就直接跳过. #include <cmath> #include <cstdio> ...

【ZH奶酪】如何用Python实现编辑距离？