目录

字典树

AC自动机


字典树

又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。其基本操作有:查找、插入和删除,当然删除操作比较少见。----百度词条

一个插入字符串为she、he、say、shr、her的字典树为

接下来是基本操作:

1.插入

还是上面那幅图

首先,根节点是肯定不存在字符的。

然后开始插入吧,首先是she,我们发现根节点的子节点没有存在s,可以插入,s的子节点不存在h,可以插入,h的子节点不存在e,可以插入,然后就是这样

我们再插入shr,这时候我们发现根节点的子节点存在s,于是可以和他共享这个节点,记住共享这个词,

继续插入h,发现s的子节点已存在h,于是可以继续共享,最后插入r,我们发现h的子节点没有存在r,于是可以插入

变成这样

发现了什么性质了吗?

1.我们插入的时候是从根节点的下一层即子节点开始插入的

2.插入字符串前,先检查这一层中是否存在同一个字符,若存在,则共享,若不存在,则新建一个子节点

 1 void bulid_trie(){
 2
 3     int len=s.length();
 4     int idx=0;//当前字母编号
 5
 6     for(int i=0;i<len;++i){
 7         if(star[idx].son[s[i]-'a']==0){//这个节点不存在
 8             star[idx].son[s[i]-'a']=++flag;//那么就新建一个节点
 9         }
10         idx=star[idx].son[s[i]-'a'];//更新位置以便插入下一个节点
11     }
12
13 }
 

2.查询

查询操作和插入差不多,就是不用新建子节点而已

例如我们查询she,字母编号分别为1,2,3

从根节点开始,如果根节点的子节点存在s,则更新当前位置为s的编号(1),继续查找s的子节点是否存在h,存在,更新位置为2,继续查找h的子节点是否存在e,存在,更新位置,然后发现字符串查询完毕,退出循环体,查询结束。

以下代码是查询的时候记录此字符串被查询了几次

 1 int query(){
 2
 3     int len=s.length();
 4     int idx=0;//当前字母编号
 5     for(int i=0;i<len;++i){
 6         //不存在这个字母说明不存在此单词,所以返回0
 7         if(star[idx].son[s[i]-'a']==0)
 8         return 0;
 9         idx=star[idx].son[s[i]-'a'];
10     }
11     star[idx].num++;//此单词被查询了几次
12     return star[idx].num++;
13 }

例如这道题 P2580 于是他错误的点名开始了 https://www.luogu.org/problem/P2580

 1 #include<iostream>
 2 #include<cstring>
 3 #include<math.h>
 4 #include<stdlib.h>
 5 #include<cstring>
 6 #include<cstdio>
 7 #include<utility>
 8 #include<algorithm>
 9 #include<map>
10 using namespace std;
11 typedef long long ll;
12 inline int read(){
13     int X=0,w=0;char ch=0;
14     while(!isdigit(ch)){w|=ch=='-';ch=getchar();}
15     while(isdigit(ch))X=(X<<3)+(X<<1)+(ch^48),ch=getchar();
16     return w?-X:X;
17 }
18 /*------------------------------------------------------------------------*/
19 const int maxn=1e6;
20 struct node{
21     int num;//该单词结尾遍历完之后的出现次数
22     int son[26];
23 }star[maxn*10];
24 int n,m;
25 string s;
26 int flag;
27 void bulid_trie(){
28
29     int len=s.length();
30     int idx=0;//当前字母编号
31
32     for(int i=0;i<len;++i){
33         if(star[idx].son[s[i]-'a']==0){//这个节点不存在
34             star[idx].son[s[i]-'a']=++flag;//那么就新建一个节点
35         }
36         idx=star[idx].son[s[i]-'a'];//更新位置以便插入下一个节点
37     }
38
39 }
40 int query(){
41
42     int len=s.length();
43     int idx=0;//当前字母编号
44     for(int i=0;i<len;++i){
45         //不存在这个字母说明不存在此单词,所以返回0
46         if(star[idx].son[s[i]-'a']==0)
47         return 0;
48         idx=star[idx].son[s[i]-'a'];
49     }
50     star[idx].num++;//此单词被查询了几次
51     return star[idx].num++;
52 }
53 int main()
54 {
55     ios_base::sync_with_stdio(0); cin.tie(0); cout.tie(0);
56
57     //每个字母都有自己的编号
58     cin>>n;
59     for(int i=1;i<=n;++i){
60         cin>>s;
61         bulid_trie();
62     }
63     cin>>m;
64     for(int i=1;i<=m;++i){
65         cin>>s;
66         int ans=query();
67         if(ans==1)  printf("OK\n");
68         if(ans==0)  printf("WRONG\n");
69         if(ans>1)  printf("REPEAT\n");
70     }
71     return 0;
72 }
 

复杂度:Trie树其实是一种用空间换时间的算法,它占用的空间很大,但时间是非常高效的,插入和查询的时间复杂度都是O(1)的

AC自动机

当然就是自动AC的一种算法

要学会AC自动机,我们必须知道什么是Trie,也就是字典树。Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。

----来自百度词条

AC自动机算法分为3步

1.构造一棵Trie树

2.构造失败指针

3.模式匹配

构造字典树上面讲过了

AC自动机的精髓是构造失配指针:

1.根节点所连接的第一层字母fail指针指向根节点!!!(划重点)

2.沿着trie上的字符串去构建,每次取出队列元素时,都要遍历26个字母,如果当前取出元素的子节点存在此字母,设为a,则a的失配指针指向父节点失配指针对应a的节点(是fail指针的子节点)

如下图,s的失配指针指向根节点,h指向其父节点失配指针的对应子节点

若不存在该子节点a,则让此点指向父节点失配指针对应a的节点(注意,不是失配指针指向该节点,而是trie树节点指向该节点)

为什么不存在此节点还要让他指向父节点失配指针的对应节点呢?,这是我刚学习的时候一直搞不懂的地方

看个例子,

3个模式串ab,ec,f;文本串abaec,问在文本串中出现几个模式串,output:2

红色是不存在的,为了方便理解(图在下面,旁边的数字表示字母编号)

当我们匹配文本串时,匹配完b节点,发现b节点不存在e,这个时候就可以转移到其父节点b的失配指针(为根节点)所指向的对应子节点e,于是可以继续匹配,如果不这样连接的话,就没法继续往下匹配了

我们假设一下没有连接的情况,即e不指向3,则查询到b时就卡住了,因为节点2并不存在e这个子节点

另外,记住AC自动机是多模式匹配算法,这样构建fail指针的目的是为了让匹配时可以一直在trie树上面跳

当前节点匹配失败时可以通过fail指针跳转到其他节点,不用回溯就可以一直匹配下去了

每个节点的失配指针所指向的深度永远是比i小的,因为fail所指向的是永远是后缀

 1 void getFail(){
 2     queue<int>q;
 3     for(int i=0;i<26;++i){
 4         if(tree[0].son[i]){
 5             //括号里面那个是字母编号
 6             tree[tree[0].son[i]].fail=0;//指向根节点
 7             q.push(tree[0].son[i]); //入队
 8         }
 9     }
10     while(!q.empty()){
11
12         int now=q.front();
13         q.pop();
14         for(int i=0;i<26;++i){
15
16             if(tree[now].son[i]){
17
18                 //指向他父亲节点所指向的节点----对应的子节点
19                 //now是父亲节点,fail[now]则是父亲节点失配指针所指向的节点
20                 //这里为什么要这样呢?
21                 //此子节点连接上fail所指向的对应节点,可同时判断以当前匹配的文本串字母
22                 // 为结尾的字符串有多少个 ,fail指向的节点永远是已匹配的字符串的后缀
23                 tree[tree[now].son[i]].fail=tree[tree[now].fail].son[i];
24                 q.push(tree[now].son[i]);
25             }
26             //不存在这个子节点
27             else  //fail[tree[now].son[i]]=tree[fail[now]].son[i];
28
29             tree[now].son[i]=tree[tree[now].fail].son[i];
30             //当前节点的这个子节点指向
31             //父亲节点fail指针的这个子节点
32         }
33
34     }
35
36 }

推荐博客:

 

字典树&&AC自动机---看完大概应该懂了吧。。。。的更多相关文章

  1. 2021.11.09 P2292 [HNOI2004]L语言(trie树+AC自动机)

    2021.11.09 P2292 [HNOI2004]L语言(trie树+AC自动机) https://www.luogu.com.cn/problem/P2292 题意: 标点符号的出现晚于文字的出 ...

  2. 小菜鸟 菜谈 KMP->字典树->AC自动机->trie 图 (改进与不改进)

    本文的主要宗旨是总结自己看了大佬们对AC自动机和trie 图 的一些理解与看法.(前沿:本人水平有限,总结有误,希望大佬们可以指出) KMP分割线--------------------------- ...

  3. 机器学习 | 详解GBDT梯度提升树原理,看完再也不怕面试了

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第30篇文章,我们今天来聊一个机器学习时代可以说是最厉害的模型--GBDT. 虽然文无第一武无第二,在机器学习领域并没有 ...

  4. DSP到底是个什么鬼?看完你就懂了

    DSP 即数字信号处理技术, DSP 芯片即指能够实现数字信号处理技术的芯片. DSP芯片是一种快速强大的微处理器,独特之处在于它能即时处理资料. DSP 芯片的内部采用程序和数据分开的哈佛结构,具有 ...

  5. js实现分页的几个源码,看完基本就懂了

    第一种:   <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> ...

  6. 不了解MES系统中的看板管理?看完本文就懂了

    如果想要在生产车间中,让生产过程管理都处在“看得见”的状态,那么看板可视化管理的导入是你的不二选择. MES看板包括四个部分:生产任务看板.各生产单位生产情况看板.质量看板和物料看板,其中生产任务看板 ...

  7. 想知道使用OPC服务器时如何设置DCOM?看完本文就懂了(下)

    接上文...... “安全”选项卡“安全”选项卡上,有3个选项需要设置. 启动权限 选择“使用默认值”选项 访问权限 选择“使用默认值”选项 配置权限 选择“自定义”选项,然后单击“编辑” 将打开一个 ...

  8. 《Python编程从0到1》笔记5——图解递归你肯定看完就能懂!

    本小节的示例比较简单,因为在每次递归过程中原问题仅缩减为单个更小的问题.这样的问题往往能够用简单循环解决.这类递归算法的函数调用图是链状结构.这种递归类型被称为“单重递归”(single recurs ...

  9. 用三维的视角理解二维世界:完美解释meshgrid函数,三维曲面,等高线,看完你就懂了。...

    完美解释meshgrid函数,三维曲面,等高线 #用三维的视角理解二维世界 #完美解释meshgrid函数,三维曲面,等高线 import numpy as np import matplotlib. ...

随机推荐

  1. Natas32 Writeup(Perl 远程代码执行)

    Natas32: 打开后和natas31相似的界面,并且提示,这次您需要证明可以远程代码执行,Webroot中有一个二进制文件可以执行. my $cgi = CGI->new; if ($cgi ...

  2. hdu1180 诡异的楼梯 bfs

    题目链接:http://icpc.njust.edu.cn/Problem/Hdu/1180/ 题目和不同的bfs有个不同的地方就是存在横着的或者竖着的楼梯,楼梯每过一个时刻就改变一次横竖的走向,人可 ...

  3. 单元测试实践思考(junit5+jmockit+testcontainer)

    目录 背景 方案设计 单元测试指导思想 单层隔离 内部穿透 技术实现 依赖管理 基础架构 封装Junit5&Jmockit 单元测试配置 TestContainer封装 官方方案 实际方案 完 ...

  4. Git提交代码的流程——新手适用

    pull:是下拉代码,相等于将远程的代码下载到你本地,与你本地的代码合并push:是推代码,将你的代码上传到远程的动作完整的流程是: 第一种方法:(简单易懂) 1.git add .(后面有一个点,意 ...

  5. OpenCV-Python 直方图-1:查找、绘制和分析 | 二十六

    目标 学会 使用OpenCV和Numpy函数查找直方图 使用OpenCV和Matplotlib函数绘制直方图 你将看到以下函数:cv.calcHist(),np.histogram()等. 理论 那么 ...

  6. 深度学习框架Keras与Pytorch对比

    对于许多科学家.工程师和开发人员来说,TensorFlow是他们的第一个深度学习框架.TensorFlow 1.0于2017年2月发布,可以说,它对用户不太友好. 在过去的几年里,两个主要的深度学习库 ...

  7. JavaScript的URLSearchParams方法

    URLSearchParams 接口定义了一些实用的方法来处理 URL 的查询字符串. 一个实现了 URLSearchParams 的对象可以直接用在 for…of 结构中,不需要使用 entries ...

  8. iOS 第三方库

    网络 AFNetworking HTTP网络库 Reachability 网络监测 UI.布局 Masonry AutoLayout SnapKit AutoLayout Swift TOWebVie ...

  9. Ubuntu环境下如何设置文件(文件夹)权限

    查看文件(文件夹)权限 cd到需要查看的文件(文件夹)所在目录并执行: (base) duanyongchun@hc1217:~$ ls -l #查看当前文件夹下的所有文件(包括文件夹)的权限 如图: ...

  10. 《java编程思想》操作符

    1. 自动递增和递减 递增和递减运算是两种相当不错的快捷运算,递减操作符是 "--",意为减少一个单位,递增操作符是 "++",意为增加一个单位.这两个操作符各 ...