Levenshtein Distance (编辑距离) 算法详解

编辑距离即从一个字符串变换到另一个字符串所需要的最少变化操作步骤（以字符为单位，如son到sun，s不用变，将o->s,n不用变，故操作步骤为1）。

为了得到编辑距离，我们画一张二维表来理解，以beauty和batyu为例：

图示如1单元格位置即是两个单词的第一个字符[b]比较得到的值,其值由它上方的值（1）、它左方的值（1）和、它左上角的值（0）来决定。当单元格所在的行和列所对应的字符（如3对应的是a和b）相等时，它左上角的值+0，否则加1（如在1处，[b]=[b]故左上角的值加0即0+0=0，而在2处[b]!=[b] 故左上角的值加1即1+1=2）。然后再将单元格的左单元格和上单元格的值分别加1,（，然后取相加后得到的三个结果的最小值作为该单元的值如1处相加后其左上、左、上的值为（0,2,2），故1单元格的值为0，而在3处，得到的值为（2,3,1），故3单元格的值为1）。

算法证明

这个算法计算的是将s[1…i]转换为t[1…j]（例如将beauty转换为batyu）所需最少的操作数（也就是所谓的编辑距离），这个操作数被保存在d[i,j]（d代表的就是上图所示的二维数组）中。

在第一行与第一列肯定是正确的，这也很好理解，例如我们将beauty转换为空字符串，我们需要进行的操作数为beauty的长度（所进行的操作为将beauty所有的字符丢弃）。
我们对字符可能进行的操作有三种：
将s[1…n]转换为t[1…m]当然需要将所有的s转换为所有的t，所以，d[n,m]（表格的右下角）就是我们所需的结果。

如果我们可以使用k个操作数把s[1…i]转换为t[1…j-1]，我们只需要把t[j]加在最后面就能将s[1…i]转换为t[1…j]，操作数为k+1
如果我们可以使用k个操作数把s[1…i-1]转换为t[1…j]，我们只需要把s[i]从最后删除就可以完成转换，操作数为k+1
如果我们可以使用k个操作数把s[1…i-1]转换为t[1…j-1]，我们只需要在需要的情况下（s[i] != t[j]）把s[i]替换为t[j]，所需的操作数为k+cost（cost代表是否需要转换，如果s[i]==t[j]，则cost为0，否则为1）。

这个证明过程只能证明我们可以得到结果，但并没有证明结果是最小的（即我们得到的是最少的转换步骤）。所以我们引进了另外一个算法，即d[i,j]保存的是上述三种操作中操作数最小的一种。这就保证了我们获得的结果是最小的操作数

可能进行的改进

现在的算法复杂度为O(mn)，可以将其改进为O(m)。因为这个算法只需要上一行和当前行被存储下来就可以了。
如果需要重现转换步骤，我们可以把每一步的位置和所进行的操作保存下来，进行重现。
如果我们只需要比较转换步骤是否小于一个特定常数k，那么只计算高宽宽为2k+1的矩形就可以了，这样的话，算法复杂度可简化为O(kl)，l代表参加对比的最短string的长度。
我们可以对三种操作（添加，删除，替换）给予不同的权值（当前算法均假设为1，我们可以设添加为1，删除为0，替换为2之类的），来细化我们的对比。
如果我们将第一行的所有cell初始化为0，则此算法可以用作模糊字符查询。我们可以得到最匹配此字符串的字符串的最后一个字符的位置（index number），如果我们需要此字符串的起始位置，我们则需要存储各个操作的步骤，然后通过算法计算出字符串的起始位置。
这个算法不支持并行计算，在处理超大字符串的时候会无法利用到并行计算的好处。但我们也可以并行的计算cost values（两个相同位置的字符是否相等），然后通过此算法来进行整体计算。
如果只检查对角线而不是检查整行，并且使用延迟验证（lazy evaluation），此算法的时间复杂度可优化为O(m(1+d))（d代表结果）。这在两个字符串非常相似的情况下可以使对比速度速度大为增加。

Levenshtein Distance (编辑距离) 算法详解的更多相关文章

Levenshtein distance 编辑距离算法
这几天再看 virtrual-dom,关于两个列表的对比,讲到了 Levenshtein distance 距离,周末抽空做一下总结. Levenshtein Distance 介绍在信息理论和计算 ...
编辑距离算法详解：Levenshtein Distance算法
算法基本原理:假设我们可以使用d[ i , j ]个步骤(可以使用一个二维数组保存这个值),表示将串s[ 1…i ] 转换为串t [ 1…j ]所需要的最少步骤个数,那么,在最基本的情况下,即在i等 ...
扒一扒编辑距离（Levenshtein Distance）算法
最近由于工作需要,接触了编辑距离(Levenshtein Distance)算法.赶脚很有意思.最初百度了一些文章,但讲的都不是很好,读起来感觉似懂非懂.最后还是用google找到了一些资料才慢慢理解 ...
利用Levenshtein Distance (编辑距离)实现文档相似度计算
1.首先将word文档解压缩为zip /** * 修改后缀名 */ public static String reName(String path){ File file=new File(path) ...
自然语言处理(5)之Levenshtein最小编辑距离算法
自然语言处理(5)之Levenshtein最小编辑距离算法题记:之前在公司使用Levenshtein最小编辑距离算法来实现相似车牌的计算的特性开发,正好本节来总结下Levenshtein最小编辑距离 ...
Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法
2019独角兽企业重金招聘Python工程师标准>>> Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法博客分类: java 搜索引擎 ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
kmp算法详解
转自:http://blog.csdn.net/ddupd/article/details/19899263 KMP算法详解 KMP算法简介: KMP算法是一种高效的字符串匹配算法,关于字符串匹配最简 ...
机器学习经典算法详解及Python实现--基于SMO的SVM分类器
原文:http://blog.csdn.net/suipingsp/article/details/41645779 支持向量机基本上是最好的有监督学习算法,因其英文名为support vector ...

随机推荐

Linux命令-cp
cp命令用于复制文件到目录参数 -r 递归持续复制(用于目录) 参数 -p 保留原始文件属性参数 -d 若对象为链接文件,保留该链接文件的属性参数 -a 相当于以上三者之和(-pdr) [roo ...
统计MySQL数据表大小
SELECT CONCAT(TRUNCATE(SUM(data_length)/1024/1024,2),'MB') AS data_size,CONCAT(TRUNCATE(SUM(max_data ...
wiremock之录制和回放
Recording is done by starting the standalone runner like this: $ java -jar wiremock-1.50-standalone. ...
asp.net mvc4使用百度ueditor编辑器
原文 http://www.cnblogs.com/flykai/p/3285307.html 已测试相当不错前言配置.net mvc4项目使用ueditor编辑器,在配置过程中遇见了好 ...
[NYIST737]石子合并（一）（区间dp）
题目链接:http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid=737 很经典的区间dp,发现没有写过题解.最近被hihocoder上几道比赛题难住了 ...
leetcode：Partition List
题目:Given a linked list and a value x, partition it such that all nodes less than x come before nodes ...
Java NIO读书笔记2
一.选择器(Selector) Selector(选择器)是Java NIO中能够检测一到多个NIO通道,并能够知晓通道是否为诸如读写事件做好准备的组件.这样,一个单独的线程可以管理多个channel ...
Java NIO读书笔记
一.Java IO与NIO区别: (1)Java NIO提供了与标准IO不同的IO工作方式: Channels and Buffers(通道和缓冲区):标准的IO基于字节流和字符流进行操作的,而NIO ...
maven命令大全
1. mvn help:describe 你是否因为记不清某个插件有哪些goal而痛苦过,你是否因为想不起某个goal有哪些参数而苦恼,那就试试这个命令吧,它会告诉你一切的. 参数: 1. -Dplu ...
对于json对像，怎么遍历json对象的所有key，在使用json对象时，如果无法知道key，怎么通过key变量来获取值
对于json对像,怎么遍历json对象的所有key,在使用json对象时,如果无法知道key,怎么通过key变量来获取值?请参阅下面的关键代码: <html> <head> & ...

Levenshtein Distance (编辑距离) 算法详解

Levenshtein Distance (编辑距离) 算法详解的更多相关文章

随机推荐

热门专题