1. 多模匹配

AC自动机（Aho-Corasick Automaton）是多模匹配算法的一种。所谓多模匹配，是指在字符串匹配中，模式串有多个。前面所介绍的KMP、BM为单模匹配，即模式串只有一个。假设主串\(T[1 \cdots m]\)，模式串有k个\(\mathbb{P} = \{ P_1, \cdots, P_k\}\)，且模式串集合的总长度为\(n\)。如果采用KMP来匹配多模式串，则算法复杂度为：

\[O(|P_1|+m+\cdots + |P_k|+m)=O(n+km)
\]

而KMP并没有利用到模式串之间的重复字符结构信息，每一次的匹配都需要将主串从头至尾扫描一遍。贝尔实验室的Aho与Corasick于1975年基于有限状态机（finite state machines）提出AC自动机算法[1]。小插曲：实际上AC算法比KMP提出要早，KMP是1977年才被提出来了的。

2. AC算法

AC自动机

自动机由状态（数字标记的圆圈）和转换（带标签的箭头）组成，每一次转换对应一个字符。AC算法的核心包括三个函数：goto、failure、output；这三个函数构成了AC自动机。对于模式串{he, his, hers, she}，goto函数表示字符按模式串的转移，暗含了模式串的共同前缀的字符结构信息，如下图：

failure函数表示匹配失败时退回的状态：

output函数表示模式串对应于自动机的状态：

完整的AC自动机如下：

匹配

AC算法根据自动机匹配模式串，过程比较简单：从主串的首字符、自动机的初始状态0开始，

若字符匹配成功，则按自动机的goto函数转移到下一状态；且若转移的状态对应有output函数，则输出已匹配上的模式串；
若字符匹配失败，则递归地按自动机的failure函数进行转移

匹配母串的算法如下：

构造

AC自动机的确简单高效，但是如何构造其对应的goto、failure、output函数呢？首先来看goto函数，细心一点我们发现goto函数本质上就是一棵带有回退指针的trie树，利用模式串的共同前缀信息，与output函数共同表示模式串的字符结构的信息。

failure函数是整个AC算法的精妙之处，用于匹配失败时的回溯；且回溯到的状态\(state\)应满足：状态\(state\)能按当前状态的转移字符进行能goto到的状态，且能构成最长匹配。记\(g(r,a)=s\)表示状态r可以按字符a goto到状态s，则称状态r为状态s的前一状态，字符a为状态s的转移字符。failure函数满足这样一个规律：当匹配失败时，回溯到的状态为前一状态的failure函数值（我们称之为failure转移状态）按转移字符能goto到的状态；若不能，则为前一状态的failure转移状态的failure转移状态按转移能goto到的状态；若不能，则为......上面的话听着有点拗口，让我们以上图AC自动机为例子来说明：

对于状态7，前一状态6的failure转移状态为0，状态0按转移字符s可以goto到状态3，所以状态7的failure函数\(f(7)=3\)；
对于状态2，前一状态1的failure转移状态为0，状态0按转移字符e可以goto到状态0，所以状态2的failure函数\(f(2)=0\)；

其中，所有root节点（状态0）能goto到的状态，其failure函数值均为0。根据goto表（trie树）的特性，可知某一状态的前一状态、转移字符是唯一确定的。因此定义\(\beta(s)=r\)表示状态\(s\)的前一状态为\(r\)，\(\tau(s)=a\)指状态\(s\)的转移字符为\(a\)；记\(f^{i}(s)=f\left( f^{(i-1)}(s)\right)\)。那么，状态s的failure函数的计算公式为：

\[f(s) = \left\{ {\matrix{
{g\left( f^{n}(\beta(s)), \tau(s) \right)} & n = \arg \underset{i}{\min} \, \left\{ g\left( f^{i}(\beta(s)), \tau(s) \right) \neq failure \right\}\cr
{0} & else \cr
} } \right.
\]

在计算failure函数时，巧妙地运用队列进行递归构造，具体实现如下：

3. 实现

Talk is cheap, show me the code. Java版实现在这里；下面给出python实现（代码参考了 Implementation of the Aho-Corasick algorithm in Python）：

# coding=utf-8

from collections import deque, namedtuple

automaton = []

# state_id: int, value: char, goto: dict, failure: int, output: set

Node = namedtuple("Node", "state value goto failure output")

def init_trie(words):

    """

    creates an AC automaton, firstly create an empty trie, then add words to the trie

    and sets fail transitions

    """

    create_empty_trie()

    map(add_word, words)

    set_fail_transitions()

def create_empty_trie():

    """ initialize the root of the trie """

    automaton.append(Node(0, '', {}, 0, set()))

def add_word(word):

    """add word into trie"""

    node = automaton[0]

    for char in word:

        # char is not in trie

        if goto_state(node, char) is None:

            next_state = len(automaton)

            node.goto[char] = next_state  # modify goto(state, char)

            automaton.append(Node(next_state, char, {}, 0, set()))

            node = automaton[next_state]

        else:

            node = automaton[goto_state(node, char)]

    node.output.add(word)

def goto_state(node, char):

    """goto function"""

    if char in node.goto:

        return node.goto[char]

    else:

        return None

def set_fail_transitions():

    """construction of failure function, and update the output function"""

    queue = deque()

    # initialization

    for char in automaton[0].goto:

        s = automaton[0].goto[char]

        queue.append(s)

        automaton[s] = automaton[s]._replace(failure=0)

    while queue:

        r = queue.popleft()

        node = automaton[r]

        for a in node.goto:

            s = node.goto[a]

            queue.append(s)

            state = node.failure

            # failure transition recursively

            while goto_state(automaton[state], a) is None and state != 0:

                state = automaton[state].failure

            # except the chars in goto function, all chars transition will goto root node self

            if state == 0 and goto_state(automaton[state], a) is None:

                goto_a = 0

            else:

                goto_a = automaton[state].goto[a]

            automaton[s] = automaton[s]._replace(failure=goto_a)

            fs = automaton[s].failure

            automaton[s].output.update(automaton[fs].output)

def search_result(strings):

    """AC pattern matching machine"""

    result_set = set()

    node = automaton[0]

    for char in strings:

        while goto_state(node, char) is None and node.state != 0:

            node = automaton[node.failure]

        if node.state == 0 and goto_state(node, char) is None:

            node = automaton[0]

        else:

            node = automaton[goto_state(node, char)]

        if len(node.output) >= 1:

            result_set.update(node.output)

    return result_set

init_trie(['he', 'she', 'his', 'hers'])

print search_result("ushersm")

-------------------------------------------------------- 2016-06-14 更新 --------------------------------------------------------

实现了一个scala版本，支持添加词属性，代码托管在scala-AC。

4. 参考资料

[1] Aho, Alfred V., and Margaret J. Corasick. "Efficient string matching: an aid to bibliographic search." Communications of the ACM 18.6 (1975): 333-340.

[2] Pekka Kilpeläinen, Lecture 4: Set Matching and Aho-Corasick Algorithm.

【模式匹配】Aho-Corasick自动机的更多相关文章

多模字符串匹配算法-Aho–Corasick
背景在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下 for (String document : d ...
Aho - Corasick string matching algorithm
Aho - Corasick string matching algorithm 俗称:多模式匹配算法,它是对 Knuth - Morris - pratt algorithm (单模式匹配算法) 形 ...
中文分词系列（二）基于双数组Tire树的AC自动机
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自 ...
HanLP自然语言处理包介绍
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
敏感词过滤的算法原理之 Aho-Corasick 算法
参考文档 http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-i ...
HanLP自然语言处理包开源（包含源码）
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
Python分词工具——pyhanlp
本文为本人学习pyhanlp的笔记,大多知识点来源于GitHubhttps://github.com/hankcs/HanLP/blob/master/README.md,文中的demo代码来源于该G ...
AC 自动机
AC自动机(Aho-Corasick Automata)是经典的多模式匹配算法.从前我学过这个算法,但理解的不深刻,现在已经十分不明了了.现在发觉自己对大部分算法的掌握都有问题,决定重写一系列博客把学 ...
AC自动机
AC自动机,全称Aho-Corasick自动机.如果没记错的话好像就是前缀自动机. 其实AC自动机就是KMP上树的产物.理解了KMP,那AC自动机应该也是很好理解的. 与KMP类似,AC自动机也是扔一 ...

随机推荐

【原创】还原Hyper-V 到一个新的虚拟机
Context: I need to restore VM31 backup (via 'Windows Server Backup' tool) as another new Hyper-V mac ...
NoSQL学习二：MongoDB基本管理命令
MongoDB命令学习一.MongoDB命令帮助在安装MongoDB后,启动服务器进程(mongod),可以通过在客户端命令mongo实现对MongoDB的管理和监控: 这是MongoDB最上层 ...
Ng Http Request/response格式转换
angular作为Single Page Application推荐的交互方式当然是基于json的ajax调用.但今天要说的是当你不幸工作在一个遗留或者不可控制的服务上,而这服务是基于非json提交方 ...
探求网页同步提交、ajax和comet不为人知的秘密（中篇）
深入研究某项技术,了解使用这些技术的细节,其实最终目的都是为了完成一个选择问题:当我们要使用这些技术解决某个具体的问题时候我们到底该如何去选择.如果碰到有两种技术可以让我们达到同样的目的,我们就会不自 ...
Linux tr命令
介绍 tr命令可以对来自标准输入的字符进行替换.压缩和删除.tr只能接收来自标准的输入流,不能接收参数. 语法 tr [OPTION]... SET1 [SET2] 注意:SET2是可选项 OPTIO ...
AT&T Assembly on Linux
je if equal then jmp jg if the second gt the first, then jmp jge if the second ge the first, then jm ...
React Native02-开始运行 Android篇
1. 开始运行 1)用命令进入到新建的文件目录下,比如HelloWorld,再输入 react-native start: 在等待一段时间后,我们看到最后面有个地址,说明已经运行成功了. 我们输入地址 ...
linux环境 c 中如何执行shell命令
1 system 相当简单: int system(const char *command); system("ps -aux"); 2 popen popen有两个参数,第一个是 ...
iOS Crash常规跟踪方法及Bugly集成运用
当app出现崩溃, 研发阶段一般可以通过以下方式来跟踪crash信息 #1.模拟器运行, 查看xcode错误日志 #2.真机调试, 查看xcode错误日志 #3.真机运行, 查看device系统日志 ...
我心中的核心组件（可插拔的AOP）~第六回消息组件~续
回到目录上一回写消息组件已经是很久之前的事了,这一次准备把消息组件后续的东西说一下,事实上,第一篇文章主要讲的是发消息,而这一讲最要讲的是收消息,简单的说,就是消息到了服务器之后,如何从服务器实时的 ...

【模式匹配】Aho-Corasick自动机