最近由于工作需要,接触了编辑距离(Levenshtein Distance)算法。赶脚很有意思。最初百度了一些文章,但讲的都不是很好,读起来感觉似懂非懂。最后还是用google找到了一些资料才慢慢理解。当我完全理解的时就想把自己探索时遇到的“坑”总结起来,为后人“乘凉”。于是就有了这篇博文。

下面先来看一下他的定义:
   编辑距离就是用来计算从原串(s)转换到目标串(t)所需要的最少的插入、删除和替换
的数目,在NLP中应用比较广泛,如一些评测方法中就用到了(wer,mWer等),同时也常用来计算你对原文本所作的改动数。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。 
    Levenshtein Distance算法可以看作动态规划。它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度(实际上叫做距离),然后进一步得到下一个 字符位置时的相似度。比如:字符串intention变成execution需要进行下面的操作

如上图所示,d(deletion)代表删除操作,s(substitution)代表替换操作,i(insertion)代表插入操作。这里每种操作的cost为1,那么它的ED(Edit Distance)=5。

代码实现:

挖坑&填坑:
1、为什么要初始化第一行和第一列的值?
答:上面代码初始化后矩阵的结构如下:

    i n t e n t i o n
  0 1 2 3 4 5 6 7 8 9
e 1                  
x 2                  
e 3                  
c 4                  
u 5                  
t 6                  
i 7                  
o 8                  
n 9                  

从上面可以看出,第一行的值表示s2的距离,第一列的值表示s1的距离

2、matrix[i - 1, j] 、matrix[i, j - 1]、matrix[i - 1, j - 1] 分别表示啥?它们为啥都加1,而这个1又表示啥?
答:

根据编辑距离的概念可知,所需要最少的的插入、删除和替换的数目就是编辑距离。我们要找出每个字符中最小的操作,那么怎么找出“最小的操作”呢?只能挨个试了,所以出现了对每个字符进行删除、插入和替换的操作,然后进行对比从而找出最小的编辑距离
    matrix[i - 1, j] 表示删除操作
    matrix[i, j - 1]表示插入操作
    matrix[i - 1, j - 1]表示替换操作
   “1”表示距离值,因为ED算法是动态规划问题,后面的值由前面的结果得出,所以加1

3、为什么 matrix[i - 1, j]就表示删除操作,matrix[i, j - 1]就表示插入操作,matrix[i - 1, j - 1]就表示替换操作呢?
答:

举个例子:
matrix[3,3]位置,现在i=3,对应的字符串为exe;j=3,对应的字符串为int
matrix[i-1,j]=matrix[2,3],2对应的比较字符为ex,请注意关键点来了,i 和 i-1对比,也就是exe 和 ex 对比,是不是少了一个字符?那么我们就可以认为对字符exe进行了删除的操作得到ex。讲到这是不是有些感觉呢?ok,我们接着进行。
matrix[i,j-1]=matrix[3,2],2对应的比较字符in。同样我们用in和int相比,in少一个字符,那么我们可以认为in需要进行插入操作从而得到int。
matrix[i-1.j-1]=matrix[2,2],它表示替换操作,因为替换=删除+插入。看到这里你一定会恍然大悟原来是这样。这次比较的字符是ex和in,相当于我们对exe进行了删除操作得到ex,对in进行插入操作的到int

最后输出结果:

    i n t e n t i o n
  0 1 2 3 4 5 6 7 8 9
e 1 1 2 3 3 4 5 6 7 8
x 2 2 2 3 4 4 5 6 7 8
e 3 3 3 3 3 4 5 6 7 8
c 4 4 4 4 4 4 5 6 7 8
u 5 5 5 5 5 5 5 6 7 8
t 6 6 6 5 6 6 5 6 7 8
i 7 6 7 6 6 7 6 5 6 7
o 8 7 7 7 7 7 7 6 5 6
n 9 8 7 8 8 7 8 7 6 5

结束
以上是我个人的理解,如果有什么不对的地方还请大家指出

扒一扒编辑距离(Levenshtein Distance)算法的更多相关文章

  1. Levenshtein Distance算法(编辑距离算法)

    编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...

  2. 字符串相似度算法——Levenshtein Distance算法

    Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...

  3. 字符串相似度算法-LEVENSHTEIN DISTANCE算法

    Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...

  4. Magic Number(Levenshtein distance算法)

    Magic Number Time Limit:1000MS     Memory Limit:65536KB     64bit IO Format:%I64d & %I64u Submit ...

  5. 动态规划 001 - 编辑距离(Levenshtein Distance)问题

    问题 字符串的编辑距离也被称为距Levenshtein距离(Levenshtein Distance),属于经典算法,常用方法使用递归,更好的方法是使用动态规划算法,以避免出现重叠子问题的反复计算,减 ...

  6. 编辑距离算法详解:Levenshtein Distance算法

    算法基本原理:假设我们可以使用d[ i , j ]个步骤(可以使用一个二维数组保存这个值),表示将串s[ 1…i ] 转换为 串t [ 1…j ]所需要的最少步骤个数,那么,在最基本的情况下,即在i等 ...

  7. 字符串相似度算法(编辑距离Levenshtein Distance)的应用场景

    应用场景 DNA分析: 将DNA的一级序列如β-球蛋白基因的第一个外显子(Exon)转化为分子“结构图”,然后由所得“结构图”提取图的不变量,如分子连接性指数.以图的不变量作为自变量,再由相似度计算公 ...

  8. Levenshtein distance 编辑距离算法

    这几天再看 virtrual-dom,关于两个列表的对比,讲到了 Levenshtein distance 距离,周末抽空做一下总结. Levenshtein Distance 介绍 在信息理论和计算 ...

  9. Levenshtein Distance(编辑距离)算法与使用场景

    前提 已经很久没深入研究过算法相关的东西,毕竟日常少用,就算死记硬背也是没有实施场景导致容易淡忘.最近在做一个脱敏数据和明文数据匹配的需求的时候,用到了一个算法叫Levenshtein Distanc ...

随机推荐

  1. MVC中使用过滤器记录异常日志

    using System; using System.Collections.Generic; using System.Linq; using System.Web; namespace Filte ...

  2. 感受机房管理化繁为简-新款KVM使用心得

    感受机房管理化繁为简-新款KVM使用心得 一. 背景 随着网络应用的不断增多,各地机房服务器数量也随之增加,利用多传统主机切换器的方式已经无法满足目前这种区域广.设备多人员紧缺的现状,而且即使是使用了 ...

  3. badge ionic tab

    我需要在tab上动态显示 badge badge="badges.carts" badge-style="badge-assertive" 将这段代码 放在了 ...

  4. centreon 画图x轴乱码

    rrdtool默认不指定locale,使用本地locale.乱码我估记是中文字体,由于操作系统最小化安装,本地没有中文字体,导致乱码. 1 安装中文字体 yum -y install wqy-zenh ...

  5. MyBatis学习系列一之环境搭建

    目录 MyBatis学习系列一之环境搭建 MyBatis学习系列二——增删改查 MyBatis学习系列三——结合Spring 学习一个新的知识,首先做一个简单的例子使用一下,然后再逐步深入.MyBat ...

  6. HTML与XHTML的区别

    为什么要使用XHTML? 我们认为万维网上的许多页面都包含着糟糕的 HTML 代码. 下面的 HTML 代码仍然可以工作得很好,即使它没有遵守 HTML 规则: <html> <he ...

  7. mysql中union与union all的区别

    当查询表结构完全相同的多张表的数据时: 1.当查询条件完全相同且不包括主键,此时用union查询会过滤掉查询出的重复的记录,及漏查记录:使用union all进行查询,则会查出所有的符合条件的记录,保 ...

  8. C# .Net三层架构[转]

    C# .Net三层架构[转] 编写人:CC阿爸 2014-3-14 希望朋友们留下自己对三层架构的理解... 三层体系结构的概念     用户界面表示层(USL) 业务逻辑层(BLL) 数据访问层(D ...

  9. Silverlight RadGridView的HeaderCellStyle样式

    效果图 <UserControl x:Class="SilverlightApplication7.MainPage" xmlns="http://schemas. ...

  10. sed命令实战

    删除所有的空行,并在每行后面增加一个空行 sed '/^$/d;G' /etc/fstab 将每一行前导的“空白字符”(空格,制表符)删除 sed 's/^[\t ]*//' file 将文本中的 a ...