LCS的全称为Longest Common Subsequence,用于查找两个字符串中的最大公共子序列,这里需要注意区分子序列与子串,所谓子序列,指的是从前到后,可以跳跃元素筛选,而字串则必须连续筛选。

例如AB##!C!@#E和AB123CC321E两个字符串,如果找最长公共字串,只能是AB;如果是找最长公共子列,则是ABCE。

还有一种变种的LCS,允许元素重复,这样找到的子列将会是ABCCE,但是这样回溯是比较麻烦的,一般只能得到序··列的长度。

下面我们先介绍基本LCS的算法,然后介绍其变体。

【基本LCS】

1.首先作如下约定

①设字符串a、b的索引从1开始,a的全长为xm,b的全长为yn。

②c[i][j]记录了a串1~i范围和b串1~j范围内的最长子串长度。

2.递推式

要求c[i][j],我们需要考虑a[i]和b[j]的关系。

①a[i]=b[j]:说明当前子列的末尾是a、b所共有,各退一步,就得到了上一次求得的公共子列长度,也就是c[i-1][j-1],显然两个序列仅相差了一个字符,因此c[i][j] = c[i-1][j-1]+1。

②a[i]≠b[j]:说明当前子列的长度在a或者b向后推进一个字符后并未变化,因为这个字符不公共,应该考虑去掉一个字符后的公共子列中较长的,也就是c[i][j] = max{c[i-1][j], c[i][j-1]}。

这样,我们就得到了完整的递推式,下面要解决的就是递推起点的参数。

不难发现,c[0][.]和c[.][0]都应该是0,这就是递推的起点。

3.编程实现

从c[1][1]一直处理到c[xm][yn]即可,需要注意的是字符索引从0开始,因此我们需要在c的索引基础上减一。

代码如下:

void LCS(string a, string b){
int xm = a.length();
int yn = b.length();
vector<vector<int> > c(xm + 1);
for(int x = 0; x <= xm; x++){
c[x].resize(yn + 1);
}
for(int x = 1; x <= xm; x++) c[x][0] = 0;
for(int y = 1; y <= yn; y++) c[0][y] = 0;
for(int x = 1; x <= xm; x++)
for(int y = 1; y <= yn; y++){
if(a[x-1] == b[y-1]){
c[x][y] = c[x-1][y-1] + 1;
}else if(c[x][y-1] >= c[x-1][y]){
c[x][y] = c[x][y-1];
}else{
c[x][y] = c[x-1][y];
}
}
printf("LCS Length:%d\n",c[xm][yn]);
}

这样仅仅能得到序列的长度,如果要得到子列,需要回溯,从a和b的最后一个字符开始,根据字符关系查表c来确定是否是子列中的元素。因为这样得到的是倒序,因此需要每次插入到字符串的头部。

    string res = "";
int i = xm, j = yn;
while(i >= 1 && j >= 1){
if(a[i-1] == b[j-1]){
res.insert(res.begin(),a[i-1]);
i--;
j--;
}else if(c[i][j-1] >= c[i-1][j]) j--;
else i--;
}
cout << res << endl;

【变种LCS】

如上文所述,有时候需要考虑元素重复的情况,例如PAT上的一道题1045.
Favorite Color Stripe (30)
就要求计算元素可重复的最长子列,为了达到这个目的,只需要对算法稍加修改,无论什么情况,均取c[i-1][j]、c[i][j-1]和c[i-1][j-1]中的最大值,并且如果发现a、b当前字串的末尾相同,则在最大值基础上+1,这样就可以重复记录了。

这样做的原因是,原来每次碰到相同的都去找去掉后的+1,这样即使碰到多次重复也不会造成累加,因为我们只考虑了对角线。而如果是在左、对角、上三个方向寻找最大的,则会不断累加。把两个字符串看成一张表,横着为串b,竖着为串a,假设此时比较的是a中的'x',而b中有多个'x',如果是普通LCS,对于每个‘x'都会去找对角线,这样不会造成累加,而变种LCS会找到左边已经累加过的再累加,因此就允许了重复计数。

这样处理的问题在于无法通过回溯得到序列,而只能拿到长度。

void LCS_changed(string a, string b){
int xm = a.length();
int yn = b.length();
vector<vector<int> > c(xm + 1);
for(int x = 0; x <= xm; x++){
c[x].resize(yn + 1);
}
for(int x = 1; x <= xm; x++) c[x][0] = 0;
for(int y = 1; y <= yn; y++) c[0][y] = 0;
for(int x = 1; x <= xm; x++)
for(int y = 1; y <= yn; y++){
int max = c[x-1][y-1];
if(c[x][y-1] > max) max = c[x][y-1];
if(c[x-1][y] > max) max = c[x-1][y];
if(a[x-1] == b[y-1]){
c[x][y] = max + 1;
}else{
c[x][y] = max;
}
}
printf("LCS Length:%d\n",c[xm][yn]);
}

对LCS算法及其变种的初步研究的更多相关文章

  1. 所有不同的序列串-----LCS算法的变种

    今天遇到LEETCODE的第115题: Distinct Subsequences Given a string S and a string T, count the number of disti ...

  2. LCS算法

    转自:http://hzzy-010.blog.163.com/blog/static/79692381200872024242126/  好详细~~~也十分好理解~~~ 最长公共子序列问题(非连续的 ...

  3. iOS多线程的初步研究(六)

    iOS多线程的初步研究(六) iOS平台提供更高级的并发(异步)调用接口,让你可以集中精力去设计需完成的任务代码,避免去写与程序逻辑无关的线程生成.运行等管理代码.当然实质上是这些接口隐含生成线程和管 ...

  4. iOS多线程的初步研究3

    iOS多线程的初步研究(三) 弄清楚NSRunLoop确实需要花时间,这个类的概念和模式似乎是Apple的平台独有(iOS+MacOSX),很难彻底搞懂(iOS没开源,呜呜). 官网的解释是说run ...

  5. iOS多线程的初步研究1

    iOS多线程的初步研究(一) 对于多线程的开发,iOS系统提供了多种不同的接口,先谈谈iOS多线程最基础方面的使用.产生线程的方式姑且分两类,一类是显式调用,另一类是隐式调用. 一.显示调用的类为NS ...

  6. iOS多线程的初步研究

    iOS多线程的初步研究(四) 理解run loop后,才能彻底理解NSTimer的实现原理,也就是说NSTimer实际上依赖run loop实现的. 先看看NSTimer的两个常用方法: + (NST ...

  7. <路径算法>哈密顿路径变种问题(2016华为软件精英挑战赛初赛)

    原创博客,转载请联系博主! 前言:几天前华为的这个软件精英(算法外包)挑战赛初赛刚刚落幕,其实这次是我第二次参加,只不过去年只入围到了64强(32强是复赛线),最后搞到了一个华为的一顶帽子(感谢交大l ...

  8. O(nlogn)LIS及LCS算法

    morestep学长出题,考验我们,第二题裸题但是数据范围令人无奈,考试失利之后,刻意去学习了下优化的算法 一.O(nlogn)的LIS(最长上升子序列) 设当前已经求出的最长上升子序列长度为len. ...

  9. LCS 算法实现

    动态规划算法 #include <iostream> #include <string.h> #include <algorithm> #include <m ...

随机推荐

  1. ●BZOJ 3931 [CQOI2015]网络吞吐量

    题链: http://www.lydsy.com/JudgeOnline/problem.php?id=3931 题解: 在最短路图上跑网络流,要开long long(无奈 BZOJ AC 不了,洛谷 ...

  2. Educational Codeforces Round 17F Tree nesting

    来自FallDream的博客,未经允许,请勿转载, 谢谢. 给你两棵树,一棵比较大(n<=1000),一棵比较小(m<=12) 问第一棵树中有多少个连通子树和第二棵同构. 答案取膜1e9+ ...

  3. bzoj4767两双手 容斥+组合

    4767: 两双手 Time Limit: 10 Sec  Memory Limit: 256 MBSubmit: 684  Solved: 208[Submit][Status][Discuss] ...

  4. C语言中#define的用法

    今天整理了一些#define的用法,与大家共享! 1.简单的define定义 #define MAXTIME 1000 一个简单的MAXTIME就定义好了,它代表1000,如果在程序里面写 if(i& ...

  5. Tensorflow 免费中文视频教程,开源代码,免费书籍.

    Free-Tensorflow Tensorflow 免费中文视频教程,开源代码,免费书籍. 官方教程 官方介绍 https://tensorflow.google.cn/ 安装教程 https:// ...

  6. Java 反射 Method threw 'java.lang.InstantiationException' exception.

    查看这个InstantiationException:异常的api所说的是: 当应用程序试图使用 Class 类中的 newInstance 方法创建一个类的实例,而指定的类对象无法被实例化时,抛出该 ...

  7. python map filter reduce的优化使用

    这篇讲下python中map.filter.reduce三个内置函数的使用方式,以及优化方法. map()函数 map()函数会根据提供的函数对指定序列做映射. 语法: map(function,it ...

  8. 《Effective Java》 读书笔记(一)

    对象的创建与销毁 ITEM1 使用静态工厂方法代替构造函数 传统的新建一个对象的方法是通过构造函数: Foo foo =new Foo(); 一个类也可以提供一个静态方法产生一个对象: Boolean ...

  9. JQuery 分页显示jquery-pager-1.0.js

    原版是jquery-pager-1.0.js,经过变更修改加上按照项目中的一些需要修改过来. //初始化分页控件 PagerOptions为配置参数 url为要提交的url地址,如果不需要提交则可以为 ...

  10. Win10 下Cmake编译配置 Opencv3.1 + Cuda7.5 + VS2013

    折腾了三天终于配置成功了,在此写下编译配置的全部步骤和遇到的很多坑. 整体介绍: OpenCV 中 CUDA 实现的函数还不是太多,使用前要在OpenCV的官网上确认以下你想要的功能是否已经实现,否则 ...