Aho-Corasick算法
2018-03-15 10:25:02
在计算机科学中,Aho–Corasick算法是由Alfred V. Aho和Margaret J.Corasick 发明的字符串搜索算法,用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量。
AC自动机主要依靠构造一个有限状态机(类似于在一个trie树中添加失配指针)来实现。这些额外的失配指针允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart,失配指针就会指向前缀ca),转向某前缀的其他分支,免于重复匹配前缀,提高算法效率。
当一个字典串集合是已知的(例如一个计算机病毒库), 就可以以离线方式先将自动机求出并储存以供日后使用,在这种情况下,算法的时间复杂度为输入字符串长度和匹配数量之和。
UNIX系统中的一个命令fgrep就是以AC自动机算法作为基础实现的。
一、自动机
自动机是计算理论的一个概念,其实是一张“图”,每个点是一个“状态”,而边则是状态之间的转移,根据条件能指导从一个状态走向另一个状态。很多字符串匹配算法都是基于自动机模型的,比如被广泛使用的正则表达式。

二、AC自动机
AC自动机可以看成是对KMP算法的推广,KMP算法是一种单模字符串匹配算法,AC自动机是多模字符串匹配算法,可以一次对多个pattern进行匹配。
AC自动机的建立流程也很简单,主要分为以下几步:
1.建Trie树
2.在Trie树上建立失配指针,成为AC自动机
3.自动机上匹配字符串
下面以模式串he/ she/ his /hers为例,待检测文本为“ushers”。
1、建立Trie树
建立Trie树可以说是非常模板了。

class TrieNode {
TrieNode[] children;
TrieNode fail;
boolean isWord;
TrieNode() {
children = new TrieNode[26];
fail = null;
isWord = false;
}
}
TrieNode root;
void bulidTrie(String[] patterns) {
root = new TrieNode();
for (String pattern : patterns) {
TrieNode cur = root;
for (int i = 0; i < pattern.length(); i++) {
if (cur.children[pattern.charAt(i) - 'a'] == null)
cur.children[pattern.charAt(i) - 'a'] = new TrieNode();
cur = cur.children[pattern.charAt(i) - 'a'];
}
cur.isWord = true;
}
}
2、建立失配指针
AC自动机的核心就是建立失配指针,其思路和KMP算法非常类似,在KMP中如果文本的text[i...j] 和 pattern[0...j - i]在text[j]出失配,KMP采取的思路是计算pattern[0...j - i - 1]的最长公共前后缀,然后将pattern向后滑动数位,从最长公共前后缀之后继续比较,如果依然失配,则重复上述的流程,直到到首位,如果依然失配,则text下移。
在AC自动机中也是这样,构造失败指针的过程概括起来就一句话:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。具体操作起来只需要:先把root加入队列(root的失败指针指向自己或者NULL),这以后我们每处理一个点,就把它的所有儿子加入队列,队列为空。

void core() {
Queue<TrieNode> queue = new LinkedList<TrieNode>();
queue.add(root);
while (!queue.isEmpty()) {
TrieNode cur = queue.poll();
for (int i = 0; i < 26; i++) {
if (cur.children[i] != null) {
if (cur == root) cur.children[i].fail = root;
else {
TrieNode tmp = cur.fail;
while (tmp != null) {
if (tmp.children[i] != null) {
cur.children[i].fail = tmp.children[i];
break;
}
tmp = tmp.fail;
}
if (tmp == null) cur.children[i].fail = root;
}
queue.add(cur.children[i]);
}
}
}
}
3、在自动机上进行匹配
int query(String text) {
int res = 0;
TrieNode pre = root;
for (int i = 0; i < text.length(); i++) {
int index = text.charAt(i) - 'a';
while (pre.children[index] == null && pre != root) pre = pre.fail;
if (pre == root && pre.children[index] == null) continue;
pre = pre.children[index];
TrieNode tmp = pre;
while (tmp != root && tmp.isWord) {
res++;
tmp.isWord = false;
tmp = tmp.fail;
}
}
return res;
}
完整代码:
import java.util.LinkedList;
import java.util.Queue; public class AhoCorasick {
class TrieNode {
TrieNode[] children;
TrieNode fail;
boolean isWord; TrieNode() {
children = new TrieNode[26];
fail = null;
isWord = false;
}
} TrieNode root; AhoCorasick() {
root = new TrieNode();
} void bulidTrie(String[] patterns) {
for (String pattern : patterns) {
TrieNode cur = root;
for (int i = 0; i < pattern.length(); i++) {
if (cur.children[pattern.charAt(i) - 'a'] == null)
cur.children[pattern.charAt(i) - 'a'] = new TrieNode();
cur = cur.children[pattern.charAt(i) - 'a'];
}
cur.isWord = true;
}
} void core() {
Queue<TrieNode> queue = new LinkedList<TrieNode>();
queue.add(root);
while (!queue.isEmpty()) {
TrieNode cur = queue.poll();
for (int i = 0; i < 26; i++) {
if (cur.children[i] != null) {
if (cur == root) cur.children[i].fail = root;
else {
TrieNode tmp = cur.fail;
while (tmp != null) {
if (tmp.children[i] != null) {
cur.children[i].fail = tmp.children[i];
break;
}
tmp = tmp.fail;
}
if (tmp == null) cur.children[i].fail = root;
}
queue.add(cur.children[i]);
}
}
}
} int query(String text) {
int res = 0;
TrieNode pre = root;
for (int i = 0; i < text.length(); i++) {
int index = text.charAt(i) - 'a';
while (pre.children[index] == null && pre != root) pre = pre.fail;
if (pre == root && pre.children[index] == null) continue;
pre = pre.children[index];
TrieNode tmp = pre;
while (tmp != root && tmp.isWord) {
res++;
tmp.isWord = false;
tmp = tmp.fail;
}
}
return res;
} public static void main(String[] args) {
AhoCorasick ac = new AhoCorasick();
String[] patterns = new String[]{"he", "she", "his", "hers"};
ac.bulidTrie(patterns);
ac.core();
int ans = ac.query("ushers");
System.out.println(ans);
}
}
Aho-Corasick算法的更多相关文章
- 多模字符串匹配算法-Aho–Corasick
背景 在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : d ...
- Aho - Corasick string matching algorithm
Aho - Corasick string matching algorithm 俗称:多模式匹配算法,它是对 Knuth - Morris - pratt algorithm (单模式匹配算法) 形 ...
- Flashtext:大规模数据清洗的利器
Flashtext:大规模数据清洗的利器 在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法.Flashtext 算法是一个高效的字符搜索和替换算法.该算法的时间复杂度不 ...
- vivo 敏感词匹配系统的设计与实践
一.前言 谛听系统是vivo的内容审核平台,保障了vivo各互联网产品持续健康的发展.谛听支持审核多种内容类型,但日常主要审核的内容是文本,下图是一个完整的文本审核流程,包括名单匹配.敏感词匹配.AI ...
- 算法 - DNA搜索 - Ako Corasick
场景:从很长的字符串(输入字符串.DNA)中搜索大量固定字符串(字典.基因) 题目:Determining DNA Health | HackerRank 算法:Aho–Corasick algori ...
- Aho-Corasick算法、多模正则匹配、Snort入门学习
希望解决的问题 . 在一些高流量.高IO的WAF中,是如何对规则库(POST.GET)中的字符串进行多正则匹配的,是单条轮询执行,还是多模式并发执行 . Snort是怎么组织.匹配高达上千条的正则规则 ...
- 敏感词过滤的算法原理之 Aho-Corasick 算法
参考文档 http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-i ...
- AC 自动机
AC自动机(Aho-Corasick Automata)是经典的多模式匹配算法.从前我学过这个算法,但理解的不深刻,现在已经十分不明了了.现在发觉自己对大部分算法的掌握都有问题,决定重写一系列博客把学 ...
- 中文分词系列(二) 基于双数组Tire树的AC自动机
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自 ...
随机推荐
- Android 小例子服务端
这是之前发布的Android项目的服务端源码,只是简单的根据请求返回了一些测试数据,没有实现对数据库的操作,可以根据需求自己实现. 这是mvc4 WebAPI项目,需要用vs2012打开. 如果是用的 ...
- Oracle管理监控之使用utl_mail自动邮件报警配置
--代发邮件存储过程源码如下: CREATE OR REPLACE PROCEDURE send_mail(p_recipient VARCHAR2, -- 邮件接收人 ...
- 精通linux设备驱动开发 笔记
3.2.7 错误处理 #include <linux/err.h> char * collect_data(char *userbuffer) { char *buffer; /* ...
- CMDB三大绝招,助我站稳运维之巅
上一篇(内功篇)介绍了建设CMDB的内功心法,接下来和各位交流下建设CMDB的招式.内功是根基.是基础,决定了武学修为境界的高低,招式也许就是明心见性之后的修行.修为指一个人的修养.素质.道德.涵养. ...
- day15(Mysql学习)
day15-MySQL 数据库 1 数据库概念(了解) 1.1 什么是数据库 数据库就是用来存储和管理数据的仓库! 数据库存储数据的优先: 可存储大量数据: 方便检索: 保持数据的一致性. ...
- Mysql varchar 把默认值设置为null和空的区别
'\0',这个表示空,需要消耗存储空间的.NULL,则表示连这个\0都没有. NULL,你可以近似理解为变量未赋值(定义了变量,但是未使用,变量不指向具体存储空间,因此,理论上不消耗存储空间),同时, ...
- HTML---初识HTML
版权声明:本文为博主原创文章.不经博主同意注明链接就可以转载. https://blog.csdn.net/Senior_lee/article/details/33723573 H ...
- .NET、NET Framewor以及.NET Core的关系(二)
什么是CLR,.NET虚拟机? 实际上,.NET不仅提供了自动内存管理的支持,他还提供了一些列的如类型安全.应用程序域.异常机制等支持,这些 都被统称为CLR公共语言运行库. CLR是.NET类型系统 ...
- 为什么Log.nsf中存储的日志只有最近7天的原因
是由于Domino服务器的notes.ini配置文件中有一行参数: Log = logfilename, log_option, not_used, days, size 比如:Log=log.nsf ...
- python初识(三)
目录: 字符编码 文件操作 循环结构拾遗 函数 整体介绍 函数的参数 函数的返回值 函数的调用 自定义函数 一.字符编码 1.了解字符编码的知识储备 a. 文件编辑存取文件的原理(nodepad++, ...