(并不能自动AC)

介绍:

Aho-Corasick automaton,最经典的处理多个模式串的匹配问题。

是kmp和字典树的结合。

精髓与灵魂:

①利用trie处理多个模式串

②引入fail指针。节点x的fail表示,trie中最大的某个前缀等于x到根节点字符串后缀的节点位置。

fail类比于kmp的nxt数组,可以在失配的时候,O(1)找到最大的可能能继续匹配的位置。

所以,ac自动机可看做多个kmp

步骤:(完整代码在下面)

①建trie树。插入模式串。

void ins(char *s){
int len=strlen(s+);
int now=;
for(int i=;i<=len;i++){
int x=s[i]-'A';
if(!a[now][x]) a[now][x]=++cnt;
now=a[now][x];
}
exi[now]=;
}

②trie上建ac自动机。

void build(){
queue<int>q;
for(int i=;i<;i++){
if(a[][i]) fail[a[][i]]=,q.push(a[][i]);
}
while(!q.empty()){
int x=q.front();q.pop();
exi[x]|=exi[fail[x]];
for(int i=;i<;i++){
if(a[x][i]){
fail[a[x][i]]=a[fail[x]][i];
q.push(a[x][i]);
}
else{
a[x][i]=a[fail[x]][i];
}
}
}
}

用bfs来建造,并且,即时转移fail指针。

fail指针的转移正确性:

因为bfs是分层加入元素,而fail至少让字符串长度-1,所以之前的fail[x]的各种信息都处理完毕了。

并且,由于fail的定义,所以能在fail[x][i]往下转移,一定就是最优的。

这里有个小优化:

else{a[x][i]=a[fail[x]][i];}

如果x没有i这个儿子,那么就直接指向它fail指针位置的儿子。

这样子,在之后的if(a[x][i])中,可以直接走一次fail[x]的儿子就可以找到真正的fail[a[x][i]]了。

因为,如果fail没有这个儿子,不加这个优化还要继续跳fail,复杂度没有保证了。

这样,就类似于并查集的路径压缩思想,直接指到最长的有这个儿子的点了。

(语言表达不好,自行画图理解吧。。。)

完整代码:

struct node{
int a[N*N][26],cnt;
int fail[N*N];
bool exi[N*N];
void init(){
memset(a,0,sizeof a);memset(exi,0,sizeof exi);
cnt=0;memset(fail,0,sizeof fail);
}
void ins(char *s){
int len=strlen(s+1);
int now=0;
for(int i=1;i<=len;i++){
int x=s[i]-'A';
if(!a[now][x]) a[now][x]=++cnt;
now=a[now][x];
}
exi[now]=1;
}
void build(){
queue<int>q;
for(int i=0;i<26;i++){
if(a[0][i]) fail[a[0][i]]=0,q.push(a[0][i]);
}
while(!q.empty()){
int x=q.front();q.pop();
exi[x]|=exi[fail[x]];
for(int i=0;i<26;i++){
if(a[x][i]){
fail[a[x][i]]=a[fail[x]][i];
q.push(a[x][i]);
}
else{
a[x][i]=a[fail[x]][i];
}
}
}
}
}ac;

另外,我们ac自动机上节点上,也可以加上其他的标记。

例题:

[JSOI2007]文本生成器

Description:

给n个模式串,求有多少个长度为m的文章,至少包含一个模式串

Solution:

Ac自动机的标志很明显,多个模式串,一个主串。

Ac自动机dp的状态很套路,一般就是匹配到j位置,怎么怎么样。。

设f[i][j],前i个字符,匹配到AC自动机的j位置,没出现一个模式串的方案数。(最后总方案-没出现一个方案,差分)

每个点有一个exi布尔数组,表示匹配到这个点,这个点所代表的前缀(可以是一个完整模式串)是否已经包含了至少一个模式串。

插入的时候,末尾exi=1,bfs的时候,exi[x]|=exi[fail[x]]即可。正确性同bfs分层图性质。

然后判断,直接转移就好了。

代码:

#include<bits/stdc++.h>
using namespace std;
const int N=+;
const int mod=;
struct node{
int a[N*N][],cnt;
int fail[N*N];
bool exi[N*N];
void init(){
memset(a,,sizeof a);memset(exi,,sizeof exi);
cnt=;memset(fail,,sizeof fail);
}
void ins(char *s){
int len=strlen(s+);
int now=;
for(int i=;i<=len;i++){
int x=s[i]-'A';
if(!a[now][x]) a[now][x]=++cnt;
now=a[now][x];
}
exi[now]=;
}
void build(){
queue<int>q;
for(int i=;i<;i++){
if(a[][i]) fail[a[][i]]=,q.push(a[][i]);
}
while(!q.empty()){
int x=q.front();q.pop();
exi[x]|=exi[fail[x]];
for(int i=;i<;i++){
if(a[x][i]){
fail[a[x][i]]=a[fail[x]][i];
q.push(a[x][i]);
}
else{
a[x][i]=a[fail[x]][i];
}
}
}
}
}ac;
int n,m;
int f[N][N*N];
char s[N];
int main()
{
scanf("%d%d",&n,&m);
for(int i=;i<=n;i++){
scanf("%s",s+);
ac.ins(s);
}
ac.build();
int tot=ac.cnt;
f[][]=;
for(int i=;i<=m-;i++){
for(int j=;j<=tot;j++){
if(!ac.exi[j]){
for(int k=;k<;k++){
if(!ac.exi[ac.a[j][k]]){
f[i+][ac.a[j][k]]=(f[i+][ac.a[j][k]]+f[i][j])%mod;
}
}
}
}
}
long long ans=;
for(int i=;i<=m;i++){
ans=(ans*)%mod;
}
for(int i=;i<=tot;i++){
if(!ac.exi[i]){
ans=(ans-f[m][i]+mod)%mod;
}
}
printf("%lld",ans);
return ;
}

为什么要记录AC自动机上匹配到的状态呢?

因为,单纯记录这一位是哪个字符肯定不能判断是否包含。

而AC自动机本身的fail,就蕴含了所有的可能包含的位置。只要不断跳fail即可。

相当于该状态已经包罗万象。

因为fail的定义,也不会包含更多,不会包含更少。

所以对于匹配问题再适合不过了。

AC自动机dp出题人出烦了之后,

就开始出一些涉及AC自动机形态的题目,更贴近算法本身。

基本开刀处都是fail指针(AC自动机的精髓嘛)

[POI2000]病毒

这是一个利用fail指针构可能可以和trie树构成环的特性。从而构造出无限长的串。

[NOI2011]阿狸的打字机——AC自动机之fail树的利用

这个题目恰好相反,把fail树和trie树都利用起来,并且离线处理。

这两个题目都是值得思考总结的。都利用了fail的性质,但是都没有直接使用fail指针。妙哉!

AC自动机——多个kmp匹配的更多相关文章

  1. ac自动机暴力跳fail匹配——hdu5880

    很简单的题,ac自动机里再维护一个len表示每个状态的串长,用s去query时每到一个结点都要暴力跳fail,因为有可能这个结点不是,但是其fail是危险结点,找到一个就直接break 再用个差分数组 ...

  2. Codeforces 590E - Birthday(AC 自动机+Dilworth 定理+二分图匹配)

    题面传送门 AC 自动机有时只是辅助建图的工具,真的 首先看到多串问题,果断建出 AC 自动机.设 \(m=\sum|s_i|\). 不难发现子串的包含关系构成了一个偏序集,于是我们考虑转化为图论,若 ...

  3. ac自动机(tree+kmp模板)

    Keywords Search Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others ...

  4. hdu1686 Oulipo KMP/AC自动机

    The French author Georges Perec (1936–1982) once wrote a book, La disparition, without the letter 'e ...

  5. KMP与AC自动机

    KMP算法主要思想就是预处理出失配函数, 从而减少匹配失败时的回溯, 复杂度是$\Theta(m+n)$, 已达到理论下界 c++代码如下 int n, f[N]; char t[N], p[N]; ...

  6. [Alg] 文本匹配-多模匹配-AC自动机

    1. 简介 AC自动机是一种多模匹配的文本匹配算法. 如果采用naive的方法,即依次比较文本串s中是否包含模式串p1, p2,...非常耗时.考虑到这些模式串中可能具有相同子串,可以利用已经比较过的 ...

  7. 使用AC自动机解决文章匹配多个候选词问题

    解决的问题 KMP算法用于单个字符串匹配,AC自动机用于文章中匹配多个候选词. 流程 第一步,先将候选词先建立前缀树. 第二步,以宽度优先遍历的方式把前缀树的每个节点设置fail指针, 头节点的fai ...

  8. 【hdu3247-Resource Archiver】位压DP+AC自动机+SPFA

    题意:给定n个文本串,m个病毒串,文本串重叠部分可以合并,但合并后不能含有病毒串,问所有文本串合并后最短多长. (2 <= n <= 10, 1 <= m <= 1000) 题 ...

  9. 【暑假】[实用数据结构] AC自动机

    Aho-Corasick自动机  算法: <功能> AC自动机用于解决文本一个而模板有多个的问题. AC自动机可以成功将多模板匹配,匹配意味着算法可以找到每一个模板在文本中出现的位置. & ...

随机推荐

  1. 20155204《网络对抗》Exp7 网络欺诈防范

    20155204<网络对抗>Exp7 网络欺诈防范 一.基础问题回答 1.通常在什么场景下容易受到DNS spoof攻击 在不安全的网络环境下访问网站. 2.在日常生活工作中如何防范以上两 ...

  2. 【LG4070】[SDOI2016]生成魔咒

    [LG4070][SDOI2016]生成魔咒 题面 洛谷 题解 如果我们不用在线输的话,那么答案就是对于所有状态\(i\) \[ \sum (i.len-i.fa.len) \] 现在我们需要在线询问 ...

  3. libgdx学习记录13——矩形CD进度条绘制

    利用ShapeRenderer可进行矩形进度条的绘制,多变形的填充等操作. 这是根据角度获取矩形坐标的函数. public Vector2 GetPoint( float x, float y, fl ...

  4. vue-cli 3.0 图片路径问题(何时使用 public 文件夹)

    1. 图片放入public文件夹下时 参考:https://cli.vuejs.org/zh/guide/html-and-static-assets.html#public-%E6%96%87%E4 ...

  5. install opencv 2.4.10 with issue :"nvcc fatal : Unsupported gpu architecture 'compute_11'"

    issue: nvcc fatal   : Unsupported gpu architecture 'compute_11'CMake Error at cuda_compile_generated ...

  6. Java 面向对象之构造方法

    01构造方法引入 A:构造方法的引入 在开发中经常需要在创建对象的同时明确对象的属性值,比如员工入职公司就要明确他的姓名.年龄等属性信息. 那么,创建对象就要明确属性值,那怎么解决呢?也就是在创建对象 ...

  7. PAT甲题题解-1004. Counting Leaves (30)-统计每层叶子节点个数+dfs

    统计每层的叶子节点个数建树,然后dfs即可 #include <iostream> #include <cstdio> #include <algorithm> # ...

  8. Final发布 文案+美工展示

    此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2476项目地址:https://coding.net/u/wuyy694/ ...

  9. 词频统计 SPEC 20160911

    本文档随时可能修改,并且没有另行通知. 请确保每一次在开始修改你的代码前,读标题中的日期,如果晚于你上次阅读, 请重读一次. 老五在寝室吹牛他熟读过<鲁滨逊漂流记>,在女生面前吹牛热爱&l ...

  10. Alpha版本发布时间安排

    Alpha版本发布截止时间:2014年11月23日 第一轮迭代M1报告时间:2014年11月27日课上 - 每个团队5分钟时间汇报,5分钟时间提问 第一轮迭代M1事后分析报告时间:2014年11月29 ...