Java实现编辑距离算法

编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们的相似度越小。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

oracle数据库中有一个编辑距离函数: UTL_MATCH.EDIT_DISTANCE(str1,str2)

在plsql中执行:  select UTL_MATCH.EDIT_DISTANCE('Java你好','你好') from dual;  

执行结果为: 4

此函数的含义为:

 计算两个字符串的差异, str1 str2, str1要做多少次插入 删除、 替换、 操作才能与str2一致(每次一个字符),这里取出来的是最小变更次数 即 最小距离。

eg:   str1 = "Java你好";  str2="你好";

   由 str1 变为 str2, 至少需要做四次删除操作,分别删除字符  J ,a, v, a然后才能与str2保持一致。故这里的编辑距离为 4。

  (这里也可以由 str2变为srt1,str2至少需要做4次插入操作,分别在前面插入 J ,a ,v,a 才能与str1保持一致。)

Java代码实现编辑距离,且计算出两个字符串的相似度(这里是因为我要做hive的自定义UDF函数,所以继承了 UDF,正常使用可以不用继承UDF类。)

字符串相似度:   相似度 =  (长串的长度 - 编辑距离)/ 长串的长度  ; // 长串的长度: Math.max(str1.length(),str2.length());

OracleEditDistance .java

package org.clio.hiveudf.hiveudf;

import org.apache.hadoop.hive.ql.exec.UDF;

/**
* <p>
* Description: 编辑距离算法
* 距离值:变更次数--- 先计算两个字符串的差异, str1 str2, str1要做多少次(每次一个char字符)增加 删除 替换 操作 才能与str2一致
* 相似度:用最长的字符串的len 减去 变更次数 ,然后除以最长的字符串长度. similarity = (maxLen - changeTimes)/maxLen
* ORACLE函数: UTL_MATCH.EDIT_DISTANCE
* select UTL_MATCH.EDIT_DISTANCE('Java你好','你好') from dual;
* </p>
* @author duanfeixia
* @date 2019年7月30日
*/
public class OracleEditDistance extends UDF{ /**
* 编辑距离算法
* @param sourceStr 原字符串
* @param targetStr 目标字符串
* @return 返回最小距离: 原字符串需要变更多少次才能与目标字符串一致(变更动作:增加/删除/替换,每次都是以字节为单位)
*/
public static int minDistance(String sourceStr, String targetStr){
int sourceLen = sourceStr.length();
int targetLen = targetStr.length(); if(sourceLen == 0){
return targetLen;
}
if(targetLen == 0){
return sourceLen;
} //定义矩阵(二维数组)
int[][] arr = new int[sourceLen+1][targetLen+1]; for(int i=0; i < sourceLen+1; i++){
arr[i][0] = i;
}
for(int j=0; j < targetLen+1; j++){
arr[0][j] = j;
} Character sourceChar = null;
Character targetChar = null; for(int i=1; i < sourceLen+1 ; i++){
sourceChar = sourceStr.charAt(i-1); for(int j=1; j < targetLen+1 ; j++){
targetChar = targetStr.charAt(j-1); if(sourceChar.equals(targetChar)){
/*
* 如果source[i] 等于target[j],则:d[i, j] = d[i-1, j-1] + 0 (递推式 1)
*/
arr[i][j] = arr[i-1][j-1];
}else{
/* 如果source[i] 不等于target[j],则根据插入、删除和替换三个策略,分别计算出使用三种策略得到的编辑距离,然后取最小的一个:
d[i, j] = min(d[i, j - 1] + 1, d[i - 1, j] + 1, d[i - 1, j - 1] + 1 ) (递推式 2)
>> d[i, j - 1] + 1 表示对source[i]执行插入操作后计算最小编辑距离
>> d[i - 1, j] + 1 表示对source[i]执行删除操作后计算最小编辑距离
>> d[i - 1, j - 1] + 1表示对source[i]替换成target[i]操作后计算最小编辑距离
*/
arr[i][j] = (Math.min(Math.min(arr[i-1][j], arr[i][j-1]), arr[i-1][j-1])) + 1;
}
}
} System.out.println("----------矩阵打印---------------");
//矩阵打印
for(int i=0;i<sourceLen+1;i++){ for(int j=0;j<targetLen+1;j++){
System.out.print(arr[i][j]+"\t");
}
System.out.println();
}
System.out.println("----------矩阵打印---------------"); return arr[sourceLen][targetLen];
} /**
* 计算字符串相似度
* similarity = (maxlen - distance) / maxlen
* ps: 数据定义为double类型,如果为int类型 相除后结果为0(只保留整数位)
* @param str1
* @param str2
* @return
*/
public static double getsimilarity(String str1,String str2){
double distance = minDistance(str1,str2);
double maxlen = Math.max(str1.length(),str2.length());
double res = (maxlen - distance)/maxlen; //System.out.println("distance="+distance);
//System.out.println("maxlen:"+maxlen);
//System.out.println("(maxlen - distance):"+(maxlen - distance));
return res;
} public static String evaluate(String str1,String str2) {
double result = getsimilarity(str1,str2);
return String.valueOf(result);
} public static void main(String[] args) {
String str1 = "2/F20NGNT";
String str2 = "1/F205ONGNT";
int result = minDistance(str1, str2);
String res = evaluate(str1,str2);
System.out.println("最小编辑距离minDistance:"+result);
System.out.println(str1+"与"+str2+"相似度为:"+res); } }

 

执行结果如下图:

编辑距离主要是为了计算两个字符串的相似度,在查阅资料的时候看到了一篇博客关中文的相似度匹配算法觉得挺有意思的,这里引入了一个 音形码 的概念来计算汉字的相似度,感觉兴趣的可以看看原博主的博客。

中文相似度匹配算法: https://blog.csdn.net/chndata/article/details/41114771

音形码

音形码示例:

这里顺便记录一下mysql函数自动填充时间工具表。

因为hive对数据初始化时每次都要手动更新表 rs_tool_date,往里面插入日期,让里面的数据为 20190101到当前日期前一天为止。(所以就写了这个函数,需要的时候手动运行一下这个函数即可~)

BEGIN

	declare i int default 0;
declare len int default 1; set i=1; -- 从i=1开始,保证存储在数据库中的数据为20190101到当前日期的前一天
set len = DATEDIFF(now(),date'2019-01-01');
-- set len = DATEDIFF(date('2019-07-15'),date'2019-01-01'); DROP TABLE IF EXISTS `rs_tool_date`; -- rs_tool_date
CREATE TABLE `rs_tool_date` (
`ID` bigint(20) NOT NULL AUTO_INCREMENT,
`tool_date` date DEFAULT NULL,
PRIMARY KEY (`ID`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT; while i<= len DO insert into rs_tool_date (tool_date) values(DATE_ADD(now(),INTERVAL -i day)); set i=i+1;
end while;
END

  

Java实现编辑距离算法的更多相关文章

  1. 自然语言处理(5)之Levenshtein最小编辑距离算法

    自然语言处理(5)之Levenshtein最小编辑距离算法 题记:之前在公司使用Levenshtein最小编辑距离算法来实现相似车牌的计算的特性开发,正好本节来总结下Levenshtein最小编辑距离 ...

  2. Levenshtein Distance算法(编辑距离算法)

    编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...

  3. Java常用排序算法+程序员必须掌握的8大排序算法+二分法查找法

    Java 常用排序算法/程序员必须掌握的 8大排序算法 本文由网络资料整理转载而来,如有问题,欢迎指正! 分类: 1)插入排序(直接插入排序.希尔排序) 2)交换排序(冒泡排序.快速排序) 3)选择排 ...

  4. 字符串相似度算法(编辑距离算法 Levenshtein Distance)(转)

    在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录. 据百度百科介绍: 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个 ...

  5. Java字符串排列算法

    Java字符串排列算法 题目:现有ABCDE 5个球 构成的排列组合 可重复抽取 最多取到16个 共有多少种组合方式? 比如:取1个球可以构成的组合有 A B C D E 共5种,取2个球可以构成的组 ...

  6. Java 常用排序算法/程序员必须掌握的 8大排序算法

    Java 常用排序算法/程序员必须掌握的 8大排序算法 分类: 1)插入排序(直接插入排序.希尔排序) 2)交换排序(冒泡排序.快速排序) 3)选择排序(直接选择排序.堆排序) 4)归并排序 5)分配 ...

  7. 字符串相似度算法(编辑距离算法 Levenshtein Distance)

    在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录.据百度百科介绍:编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串 ...

  8. Java实现KMP算法

    /**  * Java实现KMP算法  *   * 思想:每当一趟匹配过程中出现字符比较不等,不需要回溯i指针,   * 而是利用已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远   * 的一段 ...

  9. java结构与算法之选择排序

    一 .java结构与算法之选择排序(冒择路兮快归堆) 什么事选择排序:从一组无序数据中选择出中小的的值,将该值与无序区的最左边的的值进行交换. 简单的解释:假设有这样一组数据 12,4,23,5,找到 ...

随机推荐

  1. C# Distinct去重泛型List

    List<int>去重 List<string>去重 List<T>去重 1. List<int>去重 List<int> ilist = ...

  2. javascript随机数发现的一个parseInt函数的问题

    前几天想伪造一些数据,用到了随机数,没有自己写,便在网上找了一下,找到了这篇文章:https://www.cnblogs.com/starof/p/4988516.html .之后测试了一下,发现了一 ...

  3. Cocos2d-x 3.2 的内存管理详解

    目标读者:了解 Cocos2d-x 中的节点以及节点树,了解引用计数,了解游戏主循环等概念. 本文首先介绍 Cocos2d-x 3.2 中内存管理的作用,以及各个作用的应用.借由通俗易懂的解释来了解内 ...

  4. MATLAB实例:新建文件夹,保存.mat文件并保存数据到.txt文件中

    MATLAB实例:新建文件夹,保存.mat文件并保存数据到.txt文件中 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 用MATLAB实现:指定路径下 ...

  5. C++编译器优化技术:RVO、NRVO和复制省略

    现代编译器缺省会使用RVO(return value optimization,返回值优化).NRVO(named return value optimization.命名返回值优化)和复制省略(Co ...

  6. [译]Vulkan教程(02)概况

    [译]Vulkan教程(02)概况 这是我翻译(https://vulkan-tutorial.com)上的Vulkan教程的第2篇. This chapter will start off with ...

  7. LeetCode 652: 寻找重复的子树 Find Duplicate Subtrees

    LeetCode 652: 寻找重复的子树 Find Duplicate Subtrees 题目: 给定一棵二叉树,返回所有重复的子树.对于同一类的重复子树,你只需要返回其中任意一棵的根结点即可. 两 ...

  8. Element-ui 下拉列表 选项过多时通过自定义搜索来解决卡顿问题

    当使用Select选择器时,如果下拉列表的数据量太多,会有一个明显的卡顿体验,例如: <!DOCTYPE html> <html lang="en"> &l ...

  9. 在ASP.NET中备份数据库以及还原(不成熟)

    using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...

  10. Mysql将日期转为字符串

    select date_format(time, '%Y-%m-%d %H:%i:%s') from info # 2019-08-22 21:03:21