1. 什么是 LCSs?

  什么是 LCSs? 好多博友看到这几个字母可能比较困惑,因为这是我自己对两个常见问题的统称,它们分别为最长公共子序列问题(Longest-Common-Subsequence)和最长公共子串(Longest-Common-Substring)问题。这两个问题非常的相似,所以对不熟悉的同学来说,有时候很容易被混淆。下面让我们去好好地理解一下两者的区别吧。

1.1 子序列 vs 子串

  子序列是有序的,但不一定是连续,作用对象是序列。

  例如:序列 X = <B, C, D, B> 是序列 Y = <A, B, C, B, D, A, B> 的子序列,对应的下标序列为 <2, 3, 5, 7>。

  子串是有序且连续的,左右对象是字符串。

  例如 a = abcd 是 c = aaabcdddd 的一个子串;但是 b = acdddd 就不是 c 的子串。

1.2 最长公共子序列 vs 最长公共子串

  最长公共子序列和最长公共子串是常见的两种问题,虽然两者问题很相似,也均可以根据动态规划进行求解,但是两者的本质是不同的。

  最长公共子序列问题是针对给出的两个序列,求两个序列最长的公共子序列。

  最长公共子串问题是针对给出的两个字符串,求两个字符串最长的公共子串(有关字符串匹配相关算法可以转至博客《[Algorithm] 字符串匹配算法——KMP算法》)。

2. 动态规划方法求解LCSs

  前面提到,动态规划方法均可以用到最长公共子序列和最长公共子串问题当中,在这里我们就不一一进行求解了。我们以最长公共子序列为例,介绍一下如何利用动态规划的思想来解决 LCSs。

  给定两个序列,找出在两个序列中同时出现的最长子序列的长度。对于每一个序列而言,其均具有 $a^{m}$ 中子序列,因此采用暴力算法的时间复杂度是指数级的,这显然不是一种好的解决方案。

  下面我们看一下,如何使用动态规划的思想来解决最大公共子序列问题。

  首先考虑最大公共子序列问题是否满足动态规划问题的两个基本特性:

  1. 最优子结构:

  设输入序列是X [0 .. m-1] 和 Y [0 .. n-1],长度分别为 m 和 n。和设序列 L(X [0 .. m-1],Y[0 .. n-1]) 是这两个序列的 LCS 的长度,以下为 L(X [0 .. M-1],Y [0 .. N-1]) 的递归定义:

  1)如果两个序列的最后一个元素匹配(即X [M-1] == Y [N-1])

  则:L(X [0 .. M-1],Y [0 .. N-1])= 1 + L(X [0 .. M-2],Y [0 .. N-1])

  2)如果两个序列的最后字符不匹配(即X [M-1] != Y [N-1])
  则:L(X [0 .. M-1],Y [0 .. N-1]) = MAX(L(X [0 .. M-2],Y [0 .. N-1]),L(X [0 .. M-1],Y [0 .. N-2]))

  通过如下具体实例来更好地理解一下:

  1)考虑输入子序列 <AGGTAB> 和 <GXTXAYB>。最后一个字符匹配的字符串。这样的 LCS 的长度可以写成:

L(<AGGTAB>, <GXTXAYB>) = 1 + L(<AGGTA>, <GXTXAY>)

  2)考虑输入字符串“ABCDGH”和“AEDFHR。最后字符不为字符串相匹配。这样的LCS的长度可以写成:

L(<ABCDGH>, <AEDFHR>) = MAX ( L(<ABCDG>, <AEDFHR>), L(<ABCDGH>, <AEDFH>) )

  因此,LCS问题有最优子结构性质。

  2. 重叠子问题:

  很明显,基于上述的分析,LCS 很多子问题也都共享子子问题,因此可以对其进行递归求解。具体的算法时间度为 O(m*n),可以优化至 O(m+n)。

  下图给出了回溯法找出LCS的过程:

  具体的C++实现代码如下:

/ *动态规划实现的LCS问题* /
#include<stdio.h>
#include<stdlib.h> int max(int a, int b); /* Returns length of LCS for X[0..m-1], Y[0..n-1] */
int lcs( char *X, char *Y, int m, int n )
{
int L[m+][n+];
int i, j; /* Following steps build L[m+1][n+1] in bottom up fashion. Note
that L[i][j] contains length of LCS of X[0..i-1] and Y[0..j-1] */
for (i=; i<=m; i++)
{
for (j=; j<=n; j++)
{
if (i == || j == )
L[i][j] = ; else if (X[i-] == Y[j-])
L[i][j] = L[i-][j-] + ; else
L[i][j] = max(L[i-][j], L[i][j-]);
}
} /* L[m][n] contains length of LCS for X[0..n-1] and Y[0..m-1] */
return L[m][n];
} /* Utility function to get max of 2 integers */
int max(int a, int b)
{
return (a > b)? a : b;
} /*测试上面的函数 */
int main()
{
char X[] = "AGGTAB";
char Y[] = "GXTXAYB"; int m = strlen(X);
int n = strlen(Y); printf("Length of LCS is %d\n", lcs( X, Y, m, n ) ); getchar();
return ;
}

  Python实现代码如下:

def lcs(a,b):
lena=len(a)
lenb=len(b)
c=[[ for i in range(lenb+)] for j in range(lena+)]
flag=[[ for i in range(lenb+)] for j in range(lena+)]
for i in range(lena):
for j in range(lenb):
if a[i]==b[j]:
c[i+][j+]=c[i][j]+
flag[i+][j+]='ok'
elif c[i+][j]>c[i][j+]:
c[i+][j+]=c[i+][j]
flag[i+][j+]='left'
else:
c[i+][j+]=c[i][j+]
flag[i+][j+]='up'
return c,flag def printLcs(flag,a,i,j):
if i== or j==:
return
if flag[i][j]=='ok':
printLcs(flag,a,i-,j-)
print(a[i-],end='')
elif flag[i][j]=='left':
printLcs(flag,a,i,j-)
else:
printLcs(flag,a,i-,j) a='ABCBDAB'
b='BDCABA'
c,flag=lcs(a,b)
for i in c:
print(i)
print('')
for j in flag:
print(j)
print('')
printLcs(flag,a,len(a),len(b))
print('')

  awk 命令也可以很容易的写出 LCS 的代码:

echo "123456abcd567
234dddabc45678"|awk -vFS="" 'NR==1{str=$0}NR==2{N=NF;for(n=0;n++<N;){s="";for(t=n;t<=N;t++){s=s""$t;if(index(str,s)){a[n]=t-n;b[n]=s;if(m<=a[n])m=a[n]}else{t=N}}}}END{for(n=0;n++<N;)if(a[n]==m)print b[n]}'

3. 参考内容

  1. 《算法导论》动态规划之最长公共子序列;

[Data Structure] LCSs——最长公共子序列和最长公共子串的更多相关文章

  1. 动态规划 最长公共子序列 LCS,最长单独递增子序列,最长公共子串

    LCS:给出两个序列S1和S2,求出的这两个序列的最大公共部分S3就是就是S1和S2的最长公共子序列了.公共部分 必须是以相同的顺序出现,但是不必要是连续的. 选出最长公共子序列.对于长度为n的序列, ...

  2. 最长公共子序列与最长公共字串 (dp)转载http://blog.csdn.net/u012102306/article/details/53184446

    1. 问题描述 子串应该比较好理解,至于什么是子序列,这里给出一个例子:有两个母串 cnblogs belong 比如序列bo, bg, lg在母串cnblogs与belong中都出现过并且出现顺序与 ...

  3. 用Python计算最长公共子序列和最长公共子串

    如何用Python计算最长公共子序列和最长公共子串 1. 什么是最长公共子序列?什么是最长公共子串? 1.1. 最长公共子序列(Longest-Common-Subsequences,LCS) 最长公 ...

  4. 动态规划1——最长递增子序列、最长公共子序列、最长公共子串(python实现)

    目录 1. 最长递增序列 2. 最长公共子序列 3. 最长公共子串 1. 最长递增序列 给定一个序列,找出其中最长的,严格递增的子序列的长度(不要求连续). 解法一:动态规划 通过一个辅助数组记录每一 ...

  5. [Python]最长公共子序列 VS 最长公共子串[动态规划]

    前言 由于原微软开源的基于古老的perl语言的Rouge依赖环境实在难以搭建,遂跟着Rouge论文的描述自行实现. Rouge存在N.L.S.W.SU等几大子评估指标.在复现Rouge-L的函数时,便 ...

  6. O(n log n)求最长上升子序列与最长不下降子序列

    考虑dp(i)表示新上升子序列第i位数值的最小值.由于dp数组是单调的,所以对于每一个数,我们可以二分出它在dp数组中的位置,然后更新就可以了,最终的答案就是dp数组中第一个出现正无穷的位置. 代码非 ...

  7. 最长公共子序列PK最长公共子串

    1.先科普下最长公共子序列 & 最长公共子串的区别: 找两个字符串的最长公共子串,这个子串要求在原字符串中是连续的.而最长公共子序列则并不要求连续. (1)递归方法求最长公共子序列的长度 1) ...

  8. 动态规划(一)——最长公共子序列和最长公共子串

    注: 最长公共子序列采用动态规划解决,由于子问题重叠,故采用数组缓存结果,保存最佳取值方向.输出结果时,则自顶向下建立二叉树,自底向上输出,则这过程中没有分叉路,结果唯一. 最长公共子串采用参考串方式 ...

  9. 【ZH奶酪】如何用Python计算最长公共子序列和最长公共子串

    1. 什么是最长公共子序列?什么是最长公共子串? 1.1. 最长公共子序列(Longest-Common-Subsequences,LCS) 最长公共子序列(Longest-Common-Subseq ...

随机推荐

  1. IIS将错误信息发送到浏览器

    本文版权归博客园和dige1993所有,访问作者博客:http://www.cnblogs.com/dige1993 最近又开始玩ASP了,调试的时候出现错误不清楚详细错误信息特别不方便,记得以前可以 ...

  2. 安卓android sharepreference数据存储,保存输入框里面的数据

    Fragment 里面 使用轻量级的数据存储sharepreference ,代码思路清晰.保存输入框里面的数据,实现按钮保存. 个人项目中简单清晰代码: 赵存档 编写 ,可以参考: 类继承Fragm ...

  3. 关于 IIS 中 Excel 访问的问题

    关于 IIS 上 Excel 文件的访问, 一路上困难重重, 最后按以下步骤进行设置, 可在 IIS 中正常使用! 1. 引用及代码: 1). 项目中添加 Excel 程序集引用(注意: 从系统 CO ...

  4. 【译】什么是 web 框架?

    Web 应用框架,或者简单的说是“Web 框架”,其实是建立 web 应用的一种方式.从简单的博客系统到复杂的富 AJAX 应用,web 上每个页面都是通过写代码来生成的.我发现很多人都热衷于学习 w ...

  5. 【译】Getting Physical With Memory

    当我们试图去了解复杂系统时,去除其抽象层,直接关注最底层,我们会更容易去理解.使用这种方法,我们来看一下内存和 I/O 接口的最简单和基础的层:处理器和总线的接口.这些细节是更上层问题的基础,例如线程 ...

  6. Nginx深入详解之多进程网络模型

    一.进程模型        Nginx之所以为广大码农喜爱,除了其高性能外,还有其优雅的系统架构.与Memcached的经典多线程模型相比,Nginx是经典的多进程模型.Nginx启动后以daemon ...

  7. Weekly Traning Farm 16

    先安利一下这套比赛,大概是doreamon搞的,每周五晚上有一场,虽然没人做题目质量挺高的 http://codeforces.com/group/gRkn7bDfsN/contests(报名前要先报 ...

  8. Linux 共享内存详解一

    共享内存段被多个进程附加的时候,如果不是所有进程都已经调用shmdt,那么删除该共享内存段时,会出现一个临时的不完整的共享内存段(key值是0),无法彻底删除.只有当所有进程都调用shmdt,这个临时 ...

  9. ActiveMQ笔记(1):编译、安装、示例代码

    一.编译 虽然ActiveMQ提供了发布版本,但是建议同学们自己下载源代码编译,以后万一有坑,还可以尝试自己改改源码. 1.1 https://github.com/apache/activemq/r ...

  10. [LeetCode] Delete Duplicate Emails 删除重复邮箱

    Write a SQL query to delete all duplicate email entries in a table named Person, keeping only unique ...