编辑距离概念描述:

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将kitten一字转成sitting:

  1. sitten (k→s)
  2. sittin (e→i)
  3. sitting (→g)

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

问题:找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成编程字符串s2,操作有三种,添加一个字符,删除一个字符,修改一个字符

解析:

首先定义这样一个函数——edit(i, j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

显然可以有如下动态规划公式:

  • if i == 0 且 j == 0,edit(i, j) = 0
  • if i == 0 且 j > 0,edit(i, j) = j
  • if i > 0 且j == 0,edit(i, j) = i
  • if i ≥ 1  且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。

举例:edit(4, 2)== min{ edit(4-1, 2) + 1, edit(4, 2-1) + 1, edit(4-1, 2-1) + f(4, 2) }

字符"abcd"到字符"ac"的编辑距离 ==   字符"abcd"到字符"a"的编辑距离+1, 字符"abc"到字符"ac"的编辑距离+1,字符"abc"到字符"a"的编辑距离+0或者1 (如果后面相等就为0,不相等为1)。

代码:


function editDistance(s1,s2) {
//s1[i]表示第一个字符的第i个字符
var len1=s1.length,len2=s2.length;
var d=[];
var i,j;
/*初始化二维数组,以及定义
if i == 0 且 j == 0,edit(i, j) = 0
if i == 0 且 j > 0,edit(i, j) = j
if i > 0 且j == 0,edit(i, j) = i
*/ for(i = 0;i <= len1;i++){
d[i]=[];
d[i][0] = i;
}
for(j = 0;j <= len2;j++){
d[0][j] = j;
}
for(i = 1;i <= len1;i++){
for(j = 1;j <= len2;j++) {
var cost = s1[i-1] === s2[j-1] ? 0 : 1;
var deletion = d[i-1][j] + 1; //删除动作
var insertion = d[i][j-1] + 1; //增加动作
var substitution = d[i-1][j-1] + cost; //替换字符,如果相同cost=0;不同cost=1
d[i][j] = Math.min(deletion,insertion,substitution);
}
}
return d;
}
function getchunkExec(s1,s2) {
var chunkExec=[];
var pre;
//生成增量指令 r:替换,a:增加,d删除
function edit(d,i,j) {
if(i===0&&j===0)return; if(i>0&&j>0&&d[i][j]>d[i-1][j-1]) {
if(pre&&pre[0]==='r'){
pre[1]=i-1;
pre[2]=s2[j-1]+pre[2]
}else{
pre=['r',i-1,s2[j-1]]
chunkExec.push(pre);
}
edit(d, i - 1, j - 1)
}else if(j>0&&d[i][j]>d[i][j-1]){
if(pre&&pre[0]==='a'){
pre[1]=s2[j-1]+pre[1]
}else{
pre=['a',s2[j-1]]
chunkExec.push(pre);
}
edit(d,i,j-1)
}else if(i>0&&d[i][j]>d[i-1][j]){
if(pre&&pre[0]==='d'){
pre[1]=i-1;
}else{
pre=['d',i-1]
chunkExec.push(pre);
}
edit(d,i-1,j)
}else if(d[i][j]===d[i-1][j-1]) {
if(pre&&pre[0]==='e'){
pre[1]=i-1;
}else{
pre=['e',i-1]
chunkExec.push(pre);
}
edit(d, i - 1, j - 1)
}
}
var rect=editDistance(s1,s2);
edit(rect,s1.length,s2.length) return chunkExec;
}
//s1 chunk更新
function chunkUpdate(s1,chunkExec){
var arr=[]
chunkExec.forEach(function (item) {
if(item[0]==='r'){
s1=s1.slice(0,item[1])
arr.unshift(item[2])
}else if(item[0]==='a'){
arr.unshift(item[1])
}else if(item[0]==='d'){
s1=s1.slice(0,item[1])
}else if(item[0]==='e'){
arr.unshift(s1.slice(item[1]))
s1=s1.slice(0,item[1])
}
})
return arr.join(''); } //定义两个字符
var s1="adsddsdsd",s2="abcd";
//生成增量包
var chunkExec=getchunkExec(s1,s2)
//解析增量包
var ns1=chunkUpdate(s1,chunkExec) console.log(chunkExec);//增量包
console.log(s1,'=>',ns1,ns1===s2);//>abcd true

[ [ 'd', 4 ], [ 'e', 3 ], [ 'r', 1, 'bc' ], [ 'e', 0 ] ]
adsddsdsd => abcd true

  

编辑距离及编辑距离算法(求字符的相似度) js版的更多相关文章

  1. 【算法】字符串匹配之Z算法

    求文本与单模式串匹配,通常会使用KMP算法.后来接触到了Z算法,感觉Z算法也相当精妙.在以前的博文中也有过用Z算法来解决字符串匹配的题目. 下面介绍一下Z算法. 先一句话讲清楚Z算法能求什么东西. 输 ...

  2. 51nod 1445 变色DNA ( Bellman-Ford算法求单源最短路径)

    1445 变色DNA 基准时间限制:1 秒 空间限制:131072 KB 分值: 40 难度:4级算法题 有一只特别的狼,它在每个夜晚会进行变色,研究发现它可以变成N种颜色之一,将这些颜色标号为0,1 ...

  3. C++迪杰斯特拉算法求最短路径

    一:算法历史 迪杰斯特拉算法是由荷兰计算机科学家狄克斯特拉于1959 年提出的,因此又叫狄克斯特拉算法.是从一个顶点到其余各顶点的最短路径算法,解决的是有向图中最短路径问题.迪杰斯特拉算法主要特点是以 ...

  4. 二维KMP - 求字符矩阵的最小覆盖矩阵 - poj 2185

    Milking Grid Problem's Link:http://poj.org/problem?id=2185 Mean: 给你一个n*m的字符矩阵,让你求这个字符矩阵的最小覆盖矩阵,输出这个最 ...

  5. poj 3565 uva 1411 Ants KM算法求最小权

    由于涉及到实数,一定,一定不能直接等于,一定,一定加一个误差<0.00001,坑死了…… 有两种事物,不难想到用二分图.这里涉及到一个有趣的问题,这个二分图的完美匹配的最小权值和就是答案.为啥呢 ...

  6. HDU-1233 还是畅通工程 (prim 算法求最小生成树)

    prim 算法求最小生成树 还是畅通工程 Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Oth ...

  7. Dijkstra算法求单源最短路径

    Description 在每年的校赛里,所有进入决赛的同学都会获得一件很漂亮的t-shirt.但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候,却是非常累的!所以现在他们想要寻找最短的从商店 ...

  8. ZOJ Problem - 2588 Burning Bridges tarjan算法求割边

    题意:求无向图的割边. 思路:tarjan算法求割边,访问到一个点,如果这个点的low值比它的dfn值大,它就是割边,直接ans++(之所以可以直接ans++,是因为他与割点不同,每条边只访问了一遍) ...

  9. HDU 1269 迷宫城堡 tarjan算法求强连通分量

    基础模板题,应用tarjan算法求有向图的强连通分量,tarjan在此处的实现方法为:使用栈储存已经访问过的点,当访问的点离开dfs的时候,判断这个点的low值是否等于它的出生日期dfn值,如果相等, ...

随机推荐

  1. xgboost dmatrix中的 weight的重要性

    https://stackoverflow.com/questions/35983565/how-is-the-parameter-weight-dmatrix-used-in-the-gradien ...

  2. CF547D Mike and Fish

    欧拉回路,巧妙的解法. 发现每一个点$(x, y)$实际上是把横坐标和$x$和纵坐标$y$连一条线,然后代进去跑欧拉回路,这样里一条边对应了一个点,我们只要按照欧拉回路间隔染色即可. 注意到原图可能并 ...

  3. 利用arcgis实现经纬度和平面坐标互转

    一平面直角坐标(投影坐标)转经纬度 基本程序是这样的 经纬度计算操作 1. 定义坐标系:在AreToolbox下→数据管理工具→投影和变换→定义投影→输入数据或要素点击▼选择定义同层(同时在坐标系中点 ...

  4. MVC下的cshtml和aspx页面

    MVC中的aspx页面是System.Web.Mvc.ViewPage类的实例. 表示将视图呈现为 Web 窗体页所需的属性和方法. 继承层次结构 System.Object System.Web.U ...

  5. 设计模式08: Composite 组合模式(结构型模式)

    Composite 组合模式(结构型模式) 对象容器的问题在面向对象系统中,我们常会遇到一类具有“容器”特征的对象——即他们在充当对象的同时,又是其他对象的容器. public interface I ...

  6. LIS问题---HDU1025 Constructing Roads In JGShining's Kingdom

    发现这个说的比较通俗: 假设存在一个序列d[1..9] = 2 1 5 3 6 4 8 9 7,可以看出来它的LIS长度为5.下面一步一步试着找出它.我们定义一个序列B,然后令 i = 1 to 9 ...

  7. redis系列:基于redis的分布式锁

    一.介绍 这篇博文讲介绍如何一步步构建一个基于Redis的分布式锁.会从最原始的版本开始,然后根据问题进行调整,最后完成一个较为合理的分布式锁. 本篇文章会将分布式锁的实现分为两部分,一个是单机环境, ...

  8. 將sql server 2008R2 Max memory 意外設為0

    做sql server 內存Max memory 設定時大意,誤把最大值設為0,怎麼著都連不上DataBase,哪真叫個急呀,最後還是看到一條文命令把救回來了,其它很簡單急的時候就是沒想出來. 1.暫 ...

  9. Windows + python + pywinauto 搭建自动化测试环境

    最近公司在搞测试, 单纯的人工去测试需要花费太多的人力物力以及时间, 所以准备用Python做一套自动化测试来使用. 本文中使用的是Python3.6.8  和 pywin32-224.win-amd ...

  10. 同一个程序里有多个版本的App

    在Xcode中添加多个targets进行版本控制,就是同一个app开发多个版本 以Xcode 9.3 为例 1. 创建 点击左侧工程项目文件,选择TARGETS 下的项目右击选择 Duplicate. ...