前言

后缀自动机是一个强大的数据结构,能够解决很多字符串相关的(String-related)问题。

例如:他可以查询一个字符串在另一个字符串中出现的所有子串,以及查询一个字符串中本质不同的字符串的个数。

后缀自动机可以理解为一个字符串的所有子串的压缩图,对于一个长度为\(n\)的字符串,它只需要\(O(n)\)的空间,以及\(O(n)\)的时间进行在线搭建(如果我们把字符集视作常数)。如果我们把字符集视作变量\(k\),那么他的空间复杂度和时间复杂度都可以做到\(O(nlogk)\)。后缀自动机是在1983年被提出的,随后于1985年人们发现了一个线性构造的方法。

后缀自动机的定义

对于一个给定的字符串\(S\),它的后缀自动机是一个能够接受它的所有后缀的最简确定性有限状态自动机(Minimal Deterministic Finite Automaton,MDFA)。

后缀自动机的性质(形态)

后缀自动机是一张有向无环图(Oriented Acyclic Graph,OAG),每个节点被称作状态(State),每条边称作两个状态之间的转移(Transition)

有一个状态被称作起始状态(Initial State,IS)。它是整张OAG的起点(不存在一个状态,可以转移到它,即入度为0)。

每一个转移都表示一个字符,而一条从起始状态到其他状态的路径,都表示一个字符串。

每一个状态都认为是终态(Terminal State,TS)。如果我们能从起始状态转移到终态,那么我们经过的路径所代表的字符串一定是原串的某个后缀(我们认为空串是任何串的后缀)。

后缀自动机是满足以上性质的自动机中,拥有最少状态的一个自动机。

子串性质

后缀自动机最简单和最重要的一个性质是:它包含了一个字符串中所有子串的信息。后缀自动机上的所有路径(不必从起始状态出发),组成了原串中所有的子串。

每一个状态代表了所有从起始状态到它的路径所代表的字符串的集合。

一些简单的SAM的例子

空串

字符串 "a"

字符串"aa"

字符串"ab"

字符串"aba"

字符串"abb"

字符串"abbb"

Right集合

一个状态所代表的所有的字符串的右端点的位置。根据性质,显然这个状态里面的所有字符串的出现位置的右端点都重合。

所代表的串的长度

一个状态下所代表的所有的字符串的长度,一定是一段连续的区间。

后缀链接(parent)

两个状态\(u,v\),如果\(u\)中所有字符串都是\(v\)中某个字符串的后缀,那么从\(v\)向\(u\)连一条名为后缀链接的虚拟边,这条边并不存在于MDFA中。每个节点有且仅有一条后缀链接连向其他的状态,但他可能被多个后缀链接所指向。

我们把满足上述条件的\(u,v\),称作\(u\)是\(v\)的父亲(Parent)。

显然,一个状态所代表的字符串中最短的那条,是它父亲状态所代表的最长的那条字符串的长度+1

字符串"abcbc"的SAM与后缀链接的展示

线性构造算法(参见Menci)









代码实现

void extend(int x) { // 构建
int np = ++cnt,p=last;
Right[np]=1;
mx[np]=mx[p]+1;
last=np;
while(p&&!tr[p][x]) tr[p][x]=np,p=par[p];
if(!p) par[np]=1;
else {
int q = tr[p][x];
if(mx[q]==mx[p]+1) {
par[np]=q;
}
else {
int nq = ++cnt;
mx[nq]=mx[p]+1;
memcpy(tr[nq],tr[q],sizeof tr[q]);
par[nq]=par[q];par[q]=par[np]=nq;
while(p&&tr[p][x]==q) tr[p][x]=nq,p=par[p];
}
}
return;
} void topsort() {//求Right数组大小
for(int i = 1;i<=cnt;++i) ++c[mx[i]];
for(int i = 1;i<=n;++i) c[i]+=c[i-1];
for(int i = 1;i<=cnt;++i) id[c[mx[i]]--]=i;
for(int i = cnt;i;--i) Right[par[id[i]]]+=Right[id[i]];
return;
}

【文文殿下】后缀自动机(Suffix Automaton,SAM)学习笔记的更多相关文章

  1. SAM学习笔记

    SAM学习笔记 后缀自动机(模板)NSUBSTR(Caioj1471 || SPOJ 8222) [题意] 给出一个字符串S(S<=250000),令F(x)表示S的所有长度为x的子串中,出现次 ...

  2. 后缀自动机SAM学习笔记

    前言(2019.1.6) 已经是二周目了呢... 之前还是有一些东西没有理解到位 重新写一下吧 后缀自动机的一些基本概念 参考资料和例子 from hihocoder DZYO神仙翻译的神仙论文 简而 ...

  3. 后缀自动机(SAM) 学习笔记

    最近学了SAM已经SAM的比较简单的应用,SAM确实不好理解呀,记录一下. 这里提一下后缀自动机比较重要的性质: 1,SAM的点数和边数都是O(n)级别的,但是空间开两倍. 2,SAM每个结点代表一个 ...

  4. 2018.07.17 后缀自动机模板(SAM)

    洛谷传送门 这是一道后缀自动机的模板题,这道题让我切身体会到了后缀自动机的方便与好写. 代码如下: #include<bits/stdc++.h> #define N 2000005 #d ...

  5. SAM学习笔记&AC自动机复习

    形势所迫,一个对字符串深恶痛绝的鸽子又来更新了. SAM 后缀自动机就是一个对于字符串所有后缀所建立起的自动机.一些优良的性质可以使其完成很多字符串的问题. 其核心主要在于每个节点的状态和$endpo ...

  6. 回文自动机(PAM) 学习笔记

    原文链接www.cnblogs.com/zhouzhendong/p/PAM.html 前置知识 无. (强行说和KMP有关也是可以的……) 关于回文串的一些性质 1. 一个长度为 n 的字符串最多有 ...

  7. 后缀自动机----一种将字符串变成DAG的方法

    后缀自动机 (suffix automaton, SAM) 是一个能解决许多字符串相关问题的有力的数据结构.(否则我们也不会用它) 举几个例子,以下的字符串问题都可以在线性时间内通过 SAM 解决 1 ...

  8. 后缀自动机(SAM)

    *在学习后缀自动机之前需要熟练掌握WA自动机.RE自动机与TLE自动机* 什么是后缀自动机 后缀自动机 Suffix Automaton (SAM) 是一个用 O(n) 的复杂度构造,能够接受一个字符 ...

  9. 后缀自动机(SAM)奶妈式教程

    后缀自动机(SAM) 为了方便,我们做出如下约定: "后缀自动机" (Suffix Automaton) 在后文中简称为 SAM . 记 \(|S|\) 为字符串 \(S\) 的长 ...

随机推荐

  1. testng的xml文件说明(TestNG DTD)

    testNG启发自JUnit和NUnit的一种测试框架,通过使用testNG使的测试更简单.,比如如下的一些特点: 1.通过注释来管理测试 2.多线程并发执行测试,且是安全的 3.支持数据驱动测试 4 ...

  2. 10-SSH综合案例:前台用户模块:邮箱服务器配置

    之前发邮件是自己发到服务器还是?是自己搭建一个还是注册一个163啊?自己可以搭建一个邮箱的服务器然后去发送邮件.就是你必须得在这上面有了账户才能发,你也可以往网络上发.你的主机就是一台邮箱服务器了.你 ...

  3. Linux&&Mac 自动增加CSDN访问量

    我心里面有两个小人. 一个叫愧疚,对CSDN这么一个分享知识的平台的愧疚,因为我正在做一件对不起CSDN的事情. 一个叫虚荣,对CSDN访问量的渴望过渡使得我踏出了这一步. 这一步,踏入了深渊.. 最 ...

  4. spring定时任务执行两次的原因与解决方法

    spring定时任务,本地执行一次,放到服务器上后,每次执行时会执行两次,原因及解决办法. http://blog.csdn.net/yaobengen/article/details/7031266 ...

  5. USB相关注册表

    计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{ SYSTEM\\CurrentControlSet\\Control\\ ...

  6. openpose

    编译libpthread.so pthread2 ihash

  7. windows-x64 php5.6+apache2.4+mysql配置

    随手一记, 方便以后查找! 1.安装apache2.4 - 下载压缩文件并解压到  D:\Develop\Apache24 - 修改 conf 目录下: httpd.conf 文件 - 服务器目录:  ...

  8. Oracle学习笔记(十)

    光标(游标)概念引入 就是一个结果集(查询或者其他操作返回的结果是多个时使用)定义一个光标 cursor c1 is select ename from emp: 从光标中取值 打开光标: --ope ...

  9. pthread_rwlock_rdlock和“No such file or directory”

    pthread_rwlock_rdlock和"No such file or directory" 调用pthread_rwlock_rdlock时,如果失败报错"pth ...

  10. WCF双工通信笔记

    1,Dupex(双工) MEP(消息交换模式),服务端回调(Callback)客户端操作 2,客户端调用服务时,附加上一个回调对象(InstanceContext).服务端处理服务请求时,通过该回调对 ...