Stanford NLP 课程笔记之计算字符串距离

在自然语言处理任务中，有时候需要计算两个字符串之间的相似度，也可以称作是两者之间的距离，用最小编辑距离表示。

最小编辑距离用{Insertion，Deletion，Substitution}这三种操作把一个字符串转化成另一个字符串所需的操作次数，等同于LeetCode上的第72题，描述如下：

Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counted as 1 step.)

You have the following 3 operations permitted on a word:

a) Insert a character
b) Delete a character
c) Replace a character

本题使用递归算法，设D(i,j)为字符串m的前i个字符组成的字符串和n的前j个字符组成的字符串之间的最小编辑距离，然后逐渐递归得到D(m,n)的值，也即是word1和word2之间的距离。

Initialization:

　　D(i,0)=i;

　　D(0,j)=j;

Recurrence Relation:

　　For each i=1...M

　　　　For each j=1...N

　　　　　　　　　　　　 D(i-1,j)+1 //删除操作

　　　　　　D(i,j)=min　　 D(i,j-1)+1 //增加操作

　　　　　　　　　　　　 D(i-1,j-1)+X //替换操作，替换的代价是X，X可以自己设置

　　Termination:

　　　　D(M,N)就是我们要求的距离

代码如下：

class Solution {

    public int minDistance(String word1, String word2) {

        int[][] strLen = new int[word1.length()+1][word2.length()+1];

        for (int i=0;i<=word1.length();i++) strLen[i][0] = i;

        for (int j=0;j<=word2.length();j++) strLen[0][j] = j;

        for (int i=1;i<=word1.length();i++){

            for(int j=1;j<=word2.length();j++){

                if(word1.charAt(i-1)==word2.charAt(j-1)) strLen[i][j] = strLen[i-1][j-1];

                else{

                    strLen[i][j]=Math.min(strLen[i-1][j],strLen[i][j-1]);

                    strLen[i][j]=Math.min(strLen[i][j],strLen[i-1][j-1])+1;

                }

            }

        }

        return strLen[word1.length()][word2.length()];

    }

}

Stanford NLP 课程笔记之计算字符串距离的更多相关文章

Stanford NLP学习笔记1：课程介绍
Stanford NLP课程简介 1. NLP应用例子问答系统: IBM Watson 信息提取(information extraction) 情感分析机器翻译 2. NLP应用当前进展很成熟 ...
(Stanford CS224d) Deep Learning and NLP课程笔记（一）：Deep NLP
Stanford大学在2015年开设了一门Deep Learning for Natural Language Processing的课程,广受好评.并在2016年春季再次开课.我将开始这门课程的学习 ...
Stanford NLP学习笔记：7. 情感分析（Sentiment）
1. 什么是情感分析(别名:观点提取,主题分析,情感挖掘...) 应用: 1)正面VS负面的影评(影片分类问题) 2)产品/品牌评价: Google产品搜索 3)twitter情感预测股票市场行情/消 ...
(Stanford CS224d) Deep Learning and NLP课程笔记（二）：word2vec
本节课将开始学习Deep NLP的基础--词向量模型. 背景 word vector是一种在计算机中表达word meaning的方式.在Webster词典中,关于meaning有三种定义: the ...
(Stanford CS224d) Deep Learning and NLP课程笔记（三）：GloVe与模型的评估
本节课继续讲授word2vec模型的算法细节,并介绍了一种新的基于共现矩阵的词向量模型--GloVe模型.最后,本节课重点介绍了word2vec模型评估的两种方式. Skip-gram模型上节课,我 ...
stanford NLP学习笔记3：最小编辑距离（Minimum Edit Distance）
I. 最小编辑距离的定义最小编辑距离旨在定义两个字符串之间的相似度(word similarity).定义相似度可以用于拼写纠错,计算生物学上的序列比对,机器翻译,信息提取,语音识别等. 编辑距离就 ...
Stanford NLP 学习笔记2：文本处理基础（text processing）
I. 正则表达式(regular expression) 正则表达式是专门处理文本字符串的正式语言(这个是基础中的基础,就不再详细叙述,不了解的可以看这里). ^(在字符前): 负选择,匹配除括号以外 ...
Stanford NLP 课堂笔记之正则表达式
1.[]表达式的用法正则表达式可以让我们匹配我们想要的字符串形式,增加了效率,在自然语言处理领域有较大的作用. 模式匹配 [Ww]oodchuck Woodchuck,woodchuck [123 ...
【noi 2.6_2988】计算字符串距离（DP）
题意: 给两个字符串,可以增.删.改,问使这两个串变为相同的最小操作数. 解法:(下面2种的代码主要区别在初始化和,而状态转移方程大家可挑自己更容易理解的方法打) 1.f[i][j]表示a串前i个和b ...

随机推荐

jmeter-显示log的方法，和脚本通用的语法
beanshell log日志设置.log日志输出步骤: 1.从选项-勾选Log Viewer,打开调试窗口 2.选择显示log的等级 3.在脚本中加入要打引的log 如: log.info(‘日 ...
用Keras搭建神经网络简单模版（四）—— RNN Classifier 循环神经网络（手写数字图片识别）
# -*- coding: utf-8 -*- import numpy as np np.random.seed(1337) from keras.datasets import mnist fro ...
React Native登录注册页面实现空白处收起键盘
其实很简单,直接使用ScrollView作为父视图即可.有木有很神奇啊,以前都还不知道呢.....
CockroachDB学习笔记——[译]为什么Go语言是CockroachDB的正确选择
原文链接:https://www.cockroachlabs.com/blog/why-go-was-the-right-choice-for-cockroachdb/ 原作者:Jessica Edw ...
iOS——plist的创建，数据写入与读取
iOS中plist的创建,数据写入与读取 Documents:应用将数据存储在Documents中,但基于NSuserDefaults的首选项设置除外Library:基于NSUserDefaults的 ...
通过命令行方式连接redis
1.首先安装redis客户端 yum install redis 2.连接 redis-cli -h host -p port -a password host:远程redis服务器host port ...
Git常用命令速查表，新手必备版本控制
Git 跟 SVN 一样,都是用于管理代码的版本控制工具.无论在项目中,我们负责哪一块,只要需要编写代码,就必须熟悉Git(依公司要求而定). 当然,用的越熟练,处理的项目越顺利,离出任CTO.迎娶白 ...
souce and bash 的区别
对于一些环境变量的配置文件,如想使更改后立即生效,多用 souce +file 执行后即可.如/etc/profile 里加了配置, source 和 bash 的区别: source filena ...
Bilateral Multi-Perspective Matching for Natural Language Sentences---读书笔记
自然语言句子的双向.多角度匹配,是来自IBM 2017 年的一篇文章.代码github地址:https://github.com/zhiguowang/BiMPM 摘要这篇论文主要 ...
Ubuntu下Iptables的简单运用，开放/关闭端口，禁止/允许IP或IP段访问...
首先添加规则有两个参数:-A和-I,其中-A是添加到规则的末尾:-I可以插入到指定位置,没有指定位置的话默认插入到规则的首部,由于匹配规则是从上往下,依次查找的,可能出现配置的规则冲突导致后续的规则不 ...

Stanford NLP 课程笔记之计算字符串距离

Stanford NLP 课程笔记之计算字符串距离的更多相关文章

随机推荐

热门专题