后缀自动机

后缀自动机是一种确定性有限状态自动机, 它可以接收字符串\(s\)的所有后缀.

构造, 性质

翻译自毛子俄罗斯神仙的博客, 讲的很好

后缀自动机详解 - DZYO的博客 - CSDN博客

下面是一些note:

定义

  • 对于字符串\(s\)的子串\(t\), \(endpos(t)\) (或者 \(right(t)\) ) 表示t在s中出现位置的右端点的集合.

    • \(endpos\)互不相交.
    • 有相同 \(endpos\) 集合的字符串构成一个等价类.
    • 对于每个等价类, 包含的字符串长度为\([len(p), maxlen(p)]\) , 是一个连续的区间.
  • 后缀自动机的节点 \(p\) 代表一个 \(endpos\) 相同的子串的集合.
  • 对于后缀自动机的节点 \(p\), \(parent(p)\) (或者 \(link(p)\) ) 表示p在不同等价类中的最长后缀.
    • \(parent\) 形成一棵树关系.
    • \(len(p) = maxlen(parent(p)) +1\)

构建 && 状态数/转移数线性证明

上面的blog已经写的很好了, 我就不重写一遍了:P

示意图

字符串 ab:

其中 * 代表终止节点, 虚箭头表示 \(fa(p)\).

字符串 abb:

字符串 bba 的后缀树 (见后), 即字符串 abb 的前缀树/后缀自动机的 parent 树:

Code

const int nsz=1e6+50,ndsz=2*nsz,csz=27;

ll n;
char s[nsz]; //sam
//p.l means maxlen(p)
struct tnd{int ch[csz],l,fa,cnt;}sam[ndsz];
#define ch(p,c) sam[p].ch[c]
#define fa(p) sam[p].fa
int ps=1,las=1;
int cnt[ndsz],c[ndsz],seq[ndsz];
void insert(int c){
int p=las;
las=++ps,sam[las].l=sam[p].l+1,cnt[las]=1;
for(;p&&ch(p,c)==0;p=fa(p))ch(p,c)=las;
if(p==0)fa(las)=1;
else{
int q=ch(p,c);
if(sam[q].l==sam[p].l+1)fa(las)=q;
else{
int q1=++ps;
sam[q1]=sam[q],sam[q1].l=sam[p].l+1,fa(q)=fa(las)=q1;
for(;p&&ch(p,c)==q;p=fa(p))ch(p,c)=q1;
}
}
}
void build(){
rep(i,1,n)insert(s[i]-'a');
}
struct te{int t,pr;}edge[ndsz];
int hd[ndsz],pe=1;
void adde(int f,int t){edge[++pe]=(te){t,hd[f]};hd[f]=pe;} void buildtr(){
rep(i,2,ps)adde(fa(i),i);
} void gettp(){ //topo sort
rep(i,1,ps)++c[sam[i].l];
rep(i,1,ps)c[i]+=c[i-1];
rep(i,1,ps)seq[c[sam[i].l]--]=i;
} void match(char *s,int n){
int cur=1,l=0;
rep(i,1,n){
if(ch(cur,s[i])){++l,cur=ch(cur,s[i]);}
else{
while(cur&&ch(cur,s[i])==0)cur=fa(cur);
if(cur==0)l=0,cur=1;
else l=sam[cur].l+1,cur=ch(cur,s[i]);
}
}
}

后缀树

后缀树是对字符串 \(S\) 的所有后缀建立的trie树, 同样可以识别 \(S\) 的所有后缀.

为了节省空间, 可以利用虚树的思想. 我们把只有一个子节点的节点压缩到它的父亲, 也就是说, 把没有分叉的一条链压缩成一条边.

显然, 这样建成的后缀 trie 只会保留每个后缀的终止节点('\0'), 和他们的lca. 这两者数量都是 \(O(n)\) 的, 因此状态总数也为 \(O(n)\) .

同时, 字符串 \(S\) 后缀自动机的parent树等价于 \(S\) 逆序 \(S'\) 的后缀树, 可以称作前缀树. 证明见[3].

几个关键问题

在后缀自动机上走路的时间复杂度

23333

就是说对字符串 \(S\) 建立后缀自动机, 然后将字符串 \(T\) 从起点走转移边, 如果没有转移边则跳parent指针. 这样可以求出 \(S\) 与 \(T\) 的每一个公共子串.

记当前 \(S\) 与 \(T\) 的匹配长度为 \(l\). 对于每一次转移, \(l\) 会加 \(1\); 对于跳parent指针, \(l\) 会减少, 而 \(l\) 总的减少不会超过 \(|T|\). 因此总时间复杂度为 \(O(|T|)\).

事实上, 对于insert(c)的均摊时间复杂度的分析是类似的.

代码

//l : max len of current matched string
//p : current state
void match(char *s,int n){
int cur=1,l=0;
rep(i,1,n){
if(ch(cur,s[i])){++l,cur=ch(cur,s[i]);}
else{
while(cur&&ch(cur,s[i])==0)cur=fa(cur);
if(cur==0)l=0,cur=1;
else l=sam[cur].l+1,cur=ch(cur,s[i]);
}
}
}

拓扑序

from [2]

SAM 中的 DAWG 满足一个性质,如果有一条转移边 \(u \rightarrow v\) ,则一定有 \(|\max(u)| < |\max(v)|\)。类似的,如果 \(\text{next}(v) = u\),也有 \(|\max(u)| < |\max(v)|\)。所以,按照每个节点记录的 max 长度排序,可以同时得到 DAWG 和前缀树的拓扑序。

使用桶排序, 那么时间复杂度是\(O(n)\).

代码

void gettp(){ //topo sort
rep(i,1,ps)++c[sam[i].l];
rep(i,1,ps)c[i]+=c[i-1];
rep(i,1,ps)seq[c[sam[i].l]--]=i;
}

这样我们就可以在SAM上进行动态规划.

每个节点代表字符串个数

由定义可知,

节点 \(p\) 代表字符串个数 $ = maxlen(p)-len(p)+1 = maxlen(p)-maxlen(parent(p))$.

同时, 节点 \(p\) 代表字符串个数 = 起点到节点 \(p\) 路径数.

求endpos集合

记非拷贝而来的节点为实节点, 否则为虚节点.

当实节点为第 \(t\) 个字符加入时建立的时, 它的endpos集合中显然有 \(t\), 并且它是endpos集合中有 \(t\) 的节点中maxlen最大的.

那么它的parent节点显然也包含\(t\), 直接跳parent()即可.

这时我们可以O(n)的求出endpos集合的大小:

  • 对于不是拷贝的节点, cnt设为1; 拷贝而来的节点, cnt设为0.
  • 在parent树上dp, \(cnt_p+=\sum_{parent(v)=p} cnt_v\).
  • \(cnt_p\) 表示这个节点endpos集合大小, 也就是在字符串中的出现次数.

如果要求endpos集合, 需要可合并数据结构 (线段树/set/堆等). 利用可持久化线段树合并 ([模板] 线段树合并) 可以求出所有点的 endpos 集合.

最小表示法

建立\(S+S\)的后缀自动机, 从起点开始, 每次走字典序最小的转移, 并记录.

转移 \(|S|\) 次之后, 得到的字符串即为 \(S\) 的最小表示.

后缀自动机的用法

  1. 拓扑序 dp (自动机上/parent树上)
  2. 利用 len 函数和 endpos 集合 (dp, 线段树合并等)
  3. 利用 parent 树
    • 树上的技巧: lca, 倍增, 点分治, 树剖, LCT
    • dp(自上向下, 自下向上, 双重, 倍增)
  4. 利用自动机的性质 (转移等)

参考资料

  1. 后缀自动机详解 - DZYO的博客 - CSDN博客
  2. 后缀自动机学习笔记 | Menci's Blog
  3. [开新坑]对于后缀自动机的一些理解 - Shinbokuow - 不试着去思考的话,不就已经死去了吗
  4. 后缀三兄弟之三——后缀自动机(附广义后缀自动机,子序列自动机) - litble的成(tui)长(fei)史 - CSDN博客
  5. 算法学习:后缀自动机转后缀树转后缀数组 - maxtir的博客 - CSDN博客

[模板] 后缀自动机&&后缀树的更多相关文章

  1. 模板—字符串—后缀自动机(后缀自动机+线段树合并求right集合)

    模板—字符串—后缀自动机(后缀自动机+线段树合并求right集合) Code: #include <bits/stdc++.h> using namespace std; #define ...

  2. BZOJ3413: 匹配(后缀自动机 线段树合并)

    题意 题目链接 Sol 神仙题Orz 后缀自动机 + 线段树合并... 首先可以转化一下模型(想不到qwq):问题可以转化为统计\(B\)中每个前缀在\(A\)中出现的次数.(画一画就出来了) 然后直 ...

  3. cf666E. Forensic Examination(广义后缀自动机 线段树合并)

    题意 题目链接 Sol 神仙题Orz 后缀自动机 + 线段树合并 首先对所有的\(t_i\)建个广义后缀自动机,这样可以得到所有子串信息. 考虑把询问离线,然后把\(S\)拿到自动机上跑,同时维护一下 ...

  4. 洛谷P2178 [NOI2015]品酒大会(后缀自动机 线段树)

    题意 题目链接 Sol 说一个后缀自动机+线段树的无脑做法 首先建出SAM,然后对parent树进行dp,维护最大次大值,最小次小值 显然一个串能更新答案的区间是\([len_{fa_{x}} + 1 ...

  5. BZOJ1396: 识别子串(后缀自动机 线段树)

    题意 题目链接 Sol 后缀自动机+线段树 还是考虑通过每个前缀的后缀更新答案,首先出现次数只有一次,说明只有\(right\)集合大小为\(1\)的状态能对答案产生影响 设其结束位置为\(t\),代 ...

  6. [Luogu5161]WD与数列(后缀数组/后缀自动机+线段树合并)

    https://blog.csdn.net/WAautomaton/article/details/85057257 解法一:后缀数组 显然将原数组差分后答案就是所有不相交不相邻重复子串个数+n*(n ...

  7. 【BZOJ-1396&2865】识别子串&字符串识别 后缀自动机/后缀树组 + 线段树

    1396: 识别子串 Time Limit: 10 Sec  Memory Limit: 162 MBSubmit: 312  Solved: 193[Submit][Status][Discuss] ...

  8. 洛谷P4493 [HAOI2018]字串覆盖(后缀自动机+线段树+倍增)

    题面 传送门 题解 字符串就硬是要和数据结构结合在一起么--\(loj\)上\(rk1\)好像码了\(10k\)的样子-- 我们设\(L=r-l+1\) 首先可以发现对于\(T\)串一定是从左到右,能 ...

  9. luogu5212/bzoj2555 substring(后缀自动机+动态树)

    对字符串构建一个后缀自动机. 每次查询的就是在转移边上得到节点的parent树中后缀节点数量. 由于强制在线,可以用动态树维护后缀自动机parent树的子树和. 注意一个玄学的优化:每次在执行连边操作 ...

随机推荐

  1. WEB前端 CSS(非布局)

    目录 WEB前端 CSS CSS引入方式 CSS结构 CSS选择器 直接选择器 组合选择器 分组选择器 也叫并集选择器 属性选择器 伪类选择器 伪元素选择器 CSS选择器是一个查找的过程,高效的查找影 ...

  2. 如何使用纯CSS制作特效导航条?

    先上张图,如何使用纯 CSS 制作如下效果? 在继续阅读下文之前,你可以先缓一缓.尝试思考一下上面的效果或者动手尝试一下,不借助 JS ,能否巧妙的实现上述效果. OK,继续.这个效果是我在业务开发的 ...

  3. Laravel5多图上传和Laravel5单图上传的功能实现

    Laravel5文件上传默认只能上传一张图片,但是有的时候我们需要一次性上传多图就不行了,我在网上看了很多关于laravel5图片上传的文章,很多都只是介绍laravel5单图上传,多图片上传介绍少之 ...

  4. geoserver发布瓦片,geoserver发布arcgis切片和geoserver发布金字塔切片

    1 转https://www.jianshu.com/p/cf046ec1efd2,分享使用geoserver发布arcgis切片 2 转 http://www.it610.com/article/1 ...

  5. TabLayout您可能不知道的实用用法

    一.修改点击的动画 函数:setUnboundedRipple 这是默认的点击的动画 我们用代码修改一下: mGlueTabLayout.setUnboundedRipple(true); 这是之后的 ...

  6. linux下编译protobuf

    这里我介绍两种方法,一是直接ccmake配置,二是修改cmake文件下面的CMakeList.txt文件 第一种方法:配置ccmake 1.安装sudo apt-get install cmake-c ...

  7. 对象的使用处理,作用域的和ajax中this的理解

    首先,封装类,理解清楚你需要用的哪几个变量,然后声明,然后在类里封装函数,其中,constructor就是存放初始变量的地方. 这里还是datatable的处理解决, constructor(tabl ...

  8. ASP.NET Core 入门教程 7、ASP.NET Core MVC 分部视图入门

    一.前言 1.本教程主要内容 ASP.NET Core MVC (Razor)分部视图简介 ASP.NET Core MVC (Razor)分部视图基础教程 ASP.NET Core MVC (Raz ...

  9. 【笔记】两个根因分析方法:5WHY&10WHY

    什么是问题根因分析 根本原因分析(root cause analysis):通过调查和分析问题哪里出错.为什么出错,寻求防止差错事故再次发生的必要措施,从而提高服务安全和质量. 根因分析目标 问题(发 ...

  10. 使用Python的列表推导式计算笛卡儿积

    笛卡儿积: 笛卡儿积是一个列表, 列表里的元素是由输入的可迭代类型的元素对构 成的元组,因此笛卡儿积列表的长度等于输入变量的长度的乘积, 如下图: 如果你需要一个列表,列表里是 3 种不同尺寸的 T ...