后缀数组

P3809 【模板】后缀排序

定义：

对给定字符串的所有后缀排序后得到的sa、rk数组

sa[i]->排名为i的后缀的位置 rk[i]->位置为i的后缀的排名

容易发现，sa与rk互为逆，如:sa[rk[i]]=i,rk[sa[i]]=i

应用

应用主要体现在用后缀数组求lcp与height来维护查找子串、匹配等问题

实现

使用的牢柯前辈提供的高级思路，代码极其简略，好写好调
主要思想:由于注意到后缀的特殊性，即在依据以i开始的后缀的前len位排好序后，以从i+len+1开始的后缀作为第二关键字继续排序，仍保证正确性且规模缩小(len变长了)。由于对于两个后缀，若前半部分不同，则前半部分小的必定小，否则只需比较后半部分。因此考虑倍增k，一步一步合并。

普通的倍增做法需要记录rk1,rk2作为第一、第二关键字。但牢柯考虑将第一关键字相同的集中处理完，以第二关键字排序，便省去了记录第一关键字。同时，由于没有第一关键字，因此可以很简单地写sort。但复杂度仍然没懂，感觉不太能保证，但事实就是正确的，小柯说不太好讲，知道就行了，复杂度是$O(nlogn)$
省掉了一个计数排序，然后就要统计这一轮的第二关键字的rk来作为下一轮的第一关键字。若两个后缀i,j本身与i+k,j+k相同，即两个后缀前k位相同，那就先视这两个后缀相同，排名不变，若不同，因为sa已经排好序，那后面的rk必定比前面大1。

code:

const int N=1e6+5;

int sa[N],rk[N],rk0[N],n,k=0; //n->s.length

string s;

bool cmp(int x,int y)

{

	return rk[x+k]<rk[y+k];

}

void SA() //sa[i]->排名为i的后缀的位置  rk[i]->位置为i的后缀的排名

{

	for(int i=1;i<=n;i++) sa[i]=i,rk[i]=s[i];

	//初始化排名，rk可以直接等于s[i]是因为第一次倍增只要要求相同字符rk相同即可

	sort(sa+1,sa+n+1,cmp);

	//处理sa 将sa以其后缀初始位置本身的大小排序，做到要求的"相同第一关键字在sa上连续"

	for(k=1;k<=n;k<<=1) //倍增k

	{

		for(int l=1,r;l<=n;l=r+1)

		{

			r=l;

			while(r<n&&rk[sa[r]]==rk[sa[r+1]]) ++r;

			//由于保证了"相同第一关键字在sa上连续",因此直接枚举出此时第一关键字相同的区间

			sort(sa+l,sa+r+1,cmp);

			//按后缀的后半段即第二关键字排序，处理出新的sa,同时使第二关键字相同的串连续

		}

		int m=rk0[sa[1]]=1;//赋初值

		for(int i=2;i<=n;i++)

		rk0[sa[i]]=(rk[sa[i]]==rk[sa[i-1]]&&rk[sa[i]+k]==rk[sa[i-1]+k])?m:++m;

		//若第一、第二关键字都相同，则暂时视为同一种串

		for(int i=1;i<=n;i++) rk[i]=rk0[i];

		if(m==n) return;//若所有rk均不同，则代表已经处理完毕

	}

}

P4051 [JSOI2007] 字符加密

题意：给定一个字符串，求将其排成一圈所有的读法排序后最后一位组成的序列。$len\le 1e6$
事实上很好做。考虑将字符串复制在后面，然后求后缀数组。

显然对于后缀排序后的点与按题目中的方式排序相对位置不变，因此直接统计即可。

code

点击查看代码

#include<bits/stdc++.h>

using namespace std;

const int N=2e5+5;

int sa[N],rk[N],rk0[N],k=0;

bool cmp(int x,int y){return rk[x+k]<rk[y+k];}

void SA(string s,int n)

{

	for(int i=1;i<=n;i++) sa[i]=i,rk[i]=s[i];

	sort(sa+1,sa+n+1,cmp);

	for(k=1;k<=n;k<<=1)

	{

		for(int l=1,r;l<=n;l=r+1)

		{

			r=l;while(r<n&&rk[sa[r]]==rk[sa[r+1]]) r++;

			sort(sa+l,sa+r+1,cmp);

		}

		int m=1;rk0[sa[1]]=1;

		for(int i=2;i<=n;i++) rk0[sa[i]]=rk[sa[i]]==rk[sa[i-1]]&&rk[sa[i]+k]==rk[sa[i-1]+k]?m:++m;

		for(int i=1;i<=n;i++) rk[i]=rk0[i];

		if(m==n) continue;

	}

}

string t;

int main()

{

	ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);

	int n;string s;cin>>s;s=s+s;n=s.length();s=' '+s;

	SA(s,n);

	for(int i=1;i<=n;i++) if(sa[i]<=n/2) t+=s[sa[i]+n/2-1];

	cout<<t;

	return 0;

}

在字符串 $t$ 中寻找特定子串 $s$

由于 $s$ 如果在 $t$ 中，那么其一定是 $t$ 的某个后缀的前缀。由于我们已经对 $t$ 的后缀排序，因此有可二分性。

直接二分 $O(|s|)$ 地比较，总时间复杂度是 $O(|s|log_2|t|)$ 的。
如果要求 $s$ 在 $t$ 中出现的次数，也很好做。

由于出现了 $s$ 的后缀在后缀数组上一定是连续的，因此还是去二分区间左右端点，时间复杂度不变

P2870 [USACO07DEC] Best Cow Line G

题意：从字符串首尾取字符连在一起并最小化字典序
考虑类似贪心的做法。如果两边字符不同，那选更小的那一个一定优。如果相同，那就一个一个向里比，比到有不同的为止。

但显然 $O(n^2)$，考虑有没有方法优化比较的过程。由于后缀数组是对后缀排序，而这里是对串的前缀与后缀大小比较。

因此考虑将原串及其反串连起来。但因为如果这样原串与反串连接可能导致排序混乱，因此之间加一个特殊字符后再做sa。

这样每次对比 $O(1)$，就可以做到总体时间复杂度 $O(nlogn)$（sa本身速度是阈值）。

code

点击查看代码

#include<bits/stdc++.h>

using namespace std;

const int N=1e6+7;

int sa[N],rk[N],rk0[N],k=0;string t;

bool cmp(int x,int y){return rk[x+k]<rk[y+k];}

void SA(string s,int n)

{

	for(int i=1;i<=n;i++) sa[i]=i,rk[i]=s[i];

	sort(sa+1,sa+n+1,cmp);

	for(k=1;k<=n;k<<=1)

	{

		for(int l=1,r;l<=n;l=r+1)

		{

			r=l;while(r<n&&rk[sa[r]]==rk[sa[r+1]]) ++r;

			sort(sa+l,sa+r+1,cmp);

		}

		rk0[sa[1]]=1;int m=1;

		for(int i=2;i<=n;i++) rk0[sa[i]]=rk[sa[i]]==rk[sa[i-1]]&&rk[sa[i]+k]==rk[sa[i-1]+k]?m:++m;

		for(int i=1;i<=n;i++) rk[i]=rk0[i];

		if(m==n) return;

	}

}

int main()

{

	ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);

	int n,nn;string s;cin>>nn;n=nn;s=' ';string x;for(int i=1;i<=n;i++) cin>>x,s+=x;s+=' ';

	for(int i=n;i>=1;i--) s+=s[i];n=s.length()-1;SA(s,n);

	int l=1,r=nn+2;

	for(int i=1;i<=nn;i++)

	{

		if(rk[l]<rk[r]) cout<<s[l],l++;else cout<<s[r],r++;

		if(!(i%80)) cout<<'\n';

	}

	return 0;

}

lcp

$lcp(i,j)$ 是指两个字符串 $s_i,s_j$ 的最长公共前缀。这在许多题目中是解题的关键

下面就讲述了如何快速求字符串的两个任意子串的lcp

height数组

定义

$height_i$ 表示 $lcp(sa[i],sa[i-1])$，这里括号里的数值指的是以这个数开头的字符串的后缀，后文也有这种用法。

特别地，$height_1=0$

计算

首先有一个定理，对于 $1\le i \le len_s$ 有

\[{\Large height_{rk_i}\ge height_{rk_{i-1}}-1}
\]

结论详见oi wiki(还是太菜了)

求法就相对显然了。由于不等式的递减性，只需要 $O(n)$ 算出来 $height_{rk_i}$ 的值就可以总复杂度 $O(n)$ 地求 $height$ 数组。

当然也可以像oi wiki上一样正着求。

code

for(int i=1,k=0;i<=n;i++)

{

  if(k) k--;

  while(s[i+k]==s[sa[rk[i]-1]+k]) k++;

  heigth[rk[i]]=k;

}

这里代码的逻辑是通过将 $height_{rk_i}$ 初始化成 $height_{rk_{i-1}}-1$，再重复去延伸。

结合height数组求lcp

还是有一个定理。若求以 $lcp(i,j)$，有

\[{\Large lcp(sa_i,sa_j)=min_{i+1\le k\le j}(height_k)}
\]

证明看起来非常专业，就不搞了。还是看oi wiki上的感性理解吧

因此在求完 $height$ 数组后，求 $lcp$ 就变成了一个RMQ（区间最值）问题。一般解决方法是写一个ST表解决。

P2852 [USACO06DEC] Milk Patterns G

题意：给定一串数，求出现次数至少为 $k$ 次的子串的最大长度。
显然在后缀数组拍完序后，对于所有相同子串，由于其一定是某段后缀的前缀，因此这些相同的子串一定在排完序后是连续的。

又因为要求至少出现 $k$ 次，因此考虑在 $height$ 数组上用单调队列求 $height$ 上区间的最小值。

注意，由于 $height$ 数组是排序后相邻两个字符串的 $lcp$，因此实际上单调队列维护的区间长度应该是 $k-1$(调我两天)

code

点击查看代码

#include<bits/stdc++.h>

using namespace std;

const int N=1e5+7;

int n,kk,s[N],sa[N],rk[N],rk0[N],k=0,q[N],h[N];

bool cmp(int x,int y){return rk[x+k]<rk[y+k];}

void SA()

{

	for(int i=1;i<=n;i++) sa[i]=i,rk[i]=s[i];

	sort(sa+1,sa+n+1,cmp);

	for(k=1;k<=n;k<<=1)

	{

		for(int l=1,r;l<=n;l=r+1)

		{

			r=l;

			while(r<n&&rk[sa[r]]==rk[sa[r+1]]) ++r;

			sort(sa+l,sa+r+1,cmp);

		}

		rk0[sa[1]]=1;int m=1;

		for(int i=2;i<=n;i++) rk0[sa[i]]=rk[sa[i]]==rk[sa[i-1]]&&rk[sa[i]+k]==rk[sa[i-1]+k]?m:++m;

		for(int i=1;i<=n;i++) rk[i]=rk0[i];

		if(m==n) return;

	}

}

void geth()

{

	for(int i=1,k=0;i<=n;i++)

	{

		if(k) k--;

		while(i+k<=n&&sa[rk[i]-1]+k<=n&&s[i+k]==s[sa[rk[i]-1]+k]) k++;

		h[rk[i]]=k;

	}

}

int main()

{

	ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);

	cin>>n>>kk;for(int i=1;i<=n;i++) cin>>s[i];

	SA();geth();kk--;

	int ans=0;

	int head=1,tail=0;

	for(int i=1;i<=n;i++)

	{

		while(head<=tail&&q[head]<=i-kk) head++;

		while(head<=tail&&h[q[tail]]>h[i]) tail--;

		q[++tail]=i;

		if(i>=kk) ans=max(ans,h[q[head]]);

	}

	cout<<ans<<'\n';

	return 0;

}

P2408 不同子串个数

题意：给定一个字符串，求其本质不同的子串个数。
首先，总子串个数显然为 $\frac{n\times (n+1)}{2}$，考虑如何判掉重复的。

思考方式与前几道题类似，由于所有子串都是后缀的某一前缀，因此相同的子串一定是所有 $lcp$ 的所有前缀所形成的集合。

注意，这里是所有 $lcp$ 的前缀所形成的集合，如果有两个相同的子串，其一定是在 SA 数组上是连续的。因此我们可以直接统计不同的数的个数。

code

点击查看代码

#include<bits/stdc++.h>

using namespace std;

typedef long long ll;

const int N=2e5+7;

ll n,sa[N],rk[N],rk0[N],k=0,h[N];string s;

bool cmp(int x,int y){return rk[x+k]<rk[y+k];}

void SA()

{

	for(int i=1;i<=n;i++) sa[i]=i,rk[i]=s[i];

	sort(sa+1,sa+n+1,cmp);

	for(k=1;k<=n;k<<=1)

	{

		for(int l=1,r;l<=n;l=r+1)

		{

			r=l;while(r<n&&rk[sa[r]]==rk[sa[r+1]]) ++r;

			sort(sa+l,sa+r+1,cmp);

		}

		rk0[sa[1]]=1;int m=1;

		for(int i=2;i<=n;i++) rk0[sa[i]]=rk[sa[i]]==rk[sa[i-1]]&&rk[sa[i]+k]==rk[sa[i-1]+k]?m:++m;

		for(int i=1;i<=n;i++) rk[i]=rk0[i];if(m==n) return;

	}

}

void geth()

{

	for(int i=1,k=0;i<=n;i++)

	{

		if(k) k--;

		while(s[i+k]==s[sa[rk[i]-1]+k]) ++k;

		h[rk[i]]=k;

	}

}

signed main()

{

	ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);

	cin>>n>>s;s=' '+s;

	SA();geth();

	ll ans=(n+1)*n/2;

	for(int i=1;i<=n;i++) ans-=h[i];

	cout<<ans<<'\n';

	return 0;

}

后缀数组(SA)的更多相关文章

后缀数组(SA)总结
后缀数组(SA)总结这个东西鸽了好久了,今天补一下概念后缀数组$SA$是什么东西? 它是记录一个字符串每个后缀的字典序的数组 $sa[i]$:表示排名为$i$的后缀是哪一个. \(r ...
后缀数组SA学习笔记
什么是后缀数组后缀数组$sa[i]$表示字符串中字典序排名为$i$的后缀位置 $rk[i]$表示字符串中第$i$个后缀的字典序排名举个例子: ababa a b a b a rk: ...
后缀数组SA入门（史上最晦涩难懂的讲解）
参考资料:victorique的博客(有一点锅无伤大雅,记得看评论区),$wzz$ 课件(快去$ftp$%%%),$oi-wiki$以及某个人的帮助(万分感谢!) 首先还是要说一句:我不知道为什么我这 ...
bzoj3796(后缀数组)(SA四连)
bzoj3796Mushroom追妹纸题目描述 Mushroom最近看上了一个漂亮妹纸.他选择一种非常经典的手段来表达自己的心意——写情书.考虑到自己的表达能力,Mushroom决定不手写情书.他从 ...
[笔记]后缀数组SA
参考资料这次是真抄的: 1.后缀数组详解 2.后缀数组-学习笔记 3.后缀数组--处理字符串的有力工具定义 $SA$排名为$i$的后缀的位置 $rk$位置为$i$的后缀的排名 \(t ...
【字符串】后缀数组SA
后缀数组概念实际上就是将一个字符串的所有后缀按照字典序排序得到了两个数组 $sa[i]$ 和 $rk[i]$,其中 $sa[i]$ 表示排名为 i 的后缀,$rk[i]$ 表示后 ...
浅谈后缀数组SA
这篇博客不打算讲多么详细,网上关于后缀数组的blog比我讲的好多了,这一篇博客我是为自己加深印象写的. 给你们分享了那么多,容我自私一回吧~ 参考资料:这位dalao的blog 一.关于求Suffix ...
后缀数组SA
复杂度:O(nlogn) 注:从0到n-1 const int maxn=1e5; char s[maxn]; int sa[maxn],Rank[maxn],height[maxn],rmq[max ...
洛谷2408不同字串个数/SPOJ 694/705 （后缀数组SA）
真是一个三倍经验好题啊. 我们来观察这个题目,首先如果直接整体计算,怕是不太好计算. 首先,我们可以将每个子串都看成一个后缀的的前缀.那我们就可以考虑一个一个后缀来计算了. 为了方便起见,我们选择按照 ...
洛谷4248 AHOI2013差异（后缀数组SA+单调栈）
补博客! 首先我们观察题目中给的那个求$ans$的方法,其实前两项没什么用处,直接$for$一遍就求得了 for (int i=1;i<=n;i++) ans=ans+i*(n-1); ...

随机推荐

如何给本地部署的DeepSeek投喂数据，让他更懂你
写在前面在上一篇文章中,我们说了怎么在本地部署DeepSeek.对本地部署DeepSeek感兴趣的小伙伴看过来. 本地部署 DeepSeek:小白也能轻松搞定! 话说回来了,为啥要本地部署呢? ① ...
DeepSeek本地部署
一.ollama ollama是一个管理和运行所有大模型.开源大模型的平台.在官网的Models中可以看到deepseek-r1的AI模型 1.在官网中下载对应系统的ollama,下载时需要开墙,或者 ...
QT5笔记：17. QComboBox和QPlainTextEdit
例子 #include "widget.h" #include "ui_widget.h" #include <QTextBlock> Widget ...
Typecho 数据备份及程序升级详细步骤教程
数据库备份看自己,习惯性更新前都备份,出错直接滚回去数据库备份直接在宝塔数据库那个模块备份即可,备份完建议下载本地或者保存到OSS 备份网站文件理论上只需要备份/usr/目录即可,因为这个目录包 ...
2024.11.19随笔&联考总结
联考看到 T1 就知道一定是简单计数题然后发现 $O(n)$ 可以过于是就大概写了写式子就开写.写的过程中犯了一些低级错误,代码重构了一次才过.耽误的时间比较久.然后开 T2,一眼有一个 \(O ...
什么是git，什么是github，git和github的使用
Git实战注意:本项目是学习笔记,来自于哔哩哔哩武沛齐老师的Git实战视频, 网址:[武沛齐老师讲git,看完绝对上瘾!!!] https://www.bilibili.com/video/BV1n ...
1h玩转kubernetes
学习k8s就跟学习office三件套上,95%的人只会5%,而5%的知识可以干95%的事情,所以不要觉的k8s难 1 kubernetes 1 什么是kubernetes Kubernetes 是一个 ...
Oracle 对 Json 数据进行增删改
1.背景: 由于项目要求,需要对大型的 Json 数据入库到DB中(clob 类型),由于内容过长或者 oracle 版本限制,有一些熟知的处理方法是不能使用的. 精确解决问题,可以直接看第四步:[4 ...
MAMP PRO教程
简单使用第一步创建新主机,按主机表左下角的"+"按钮. 第二步配置域名和项目地址第三步选择你要使用的web服务器第四步配置URL重写规则第五步检查端口号第六步 ...
dify 1.0.1无法在ollama下新增LLM模型
原来在0.15很正常,升到1.0.0之后就不行了,再后来1.0.1出来后,以为问题都解决了,没想到还是有问题. 具体是:添加ollama是容易了,但是添加模型(比如deepsek)还是不行.表现为点 ...

后缀数组(SA)

后缀数组

P3809 【模板】后缀排序

定义：

应用

实现

code:

P4051 [JSOI2007] 字符加密

code

在字符串 \(t\) 中寻找特定子串 \(s\)

P2870 [USACO07DEC] Best Cow Line G

code

lcp

height数组

定义

计算

code

结合height数组求lcp

P2852 [USACO06DEC] Milk Patterns G

code

P2408 不同子串个数

code

后缀数组(SA)的更多相关文章

随机推荐

热门专题