HanLP — Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机

双数组字典树能在O(1)（1是模式串长度）时间内高速完成单串匹配，并且内存消耗可控，然而软肋在于多模式匹配。如果要匹配多个模式串，必须先实现前缀查询，然后频繁截取文本后缀才可多匹配。比如 ushers、shers、hers…这样一份文本要回退扫描多遍，性能较低。既然 AC 自动机的goto表本身就是一棵字典树，能否利用双数组字典树来实现它呢？如果能用双数组字典树表达 AC自动机，就能集合两者的优点，得到一种近乎完美的数据结构。

ACDAT的基本原理是替换 AC自动机的goto表，也可看作为一棵双数组字典树的每个状态（下标）附上额外的信息。上节提到， AC自动机的goto表就是字典树，只不过 AC自动机比字典树多了output 表和fail表。那么ACDAT的构建原理就是为每个状态（base[i]和check[i]）构建output[i][]和fail[i]。具体说来，分为3步。

构建trie树，让终止节点记住对应模式串的字典序。

即将所有模式串构建为一颗字典树，同时将终止状态绑定外部value。在实现上可以先用TreeMap简单实现。
构建双数组字典树，在将每个状态映射到双数组时，让它记住自己在双数组中的下标。

与单独构建双数组Trie树不同，在为一个trie树State创建base[i]的时候，让该State记住自己的i，这样就建立State和下标的映射。
构建AC自动机，此时fail表中存储的就是状态的下标。

在构建AC自动机时，每构建一个节点State的fail表，就利用上述映射下标State.id将fail[id]设为failState.id。对于output表，也是同理。

返回所有匹配到的模式串

/**

 * 匹配母文本

 *

 * @param text 一些文本

 * @return 一个pair列表

 */

public List<Hit<V>> parseText(String text)

其中Hit是一个表示命中结果的结构：

/**

 * 一个命中结果

 *

 * @param <V>

 */

public class Hit<V>

{

    /**

     * 模式串在母文本中的起始位置

     */

    public final int begin;

    /**

     * 模式串在母文本中的终止位置

     */

    public final int end;

    /**

     * 模式串对应的值

     */

    public final V value;

}

即时处理

AhoCorasickDoubleArrayTrie提供即时处理的结构：

/**

 * 处理文本

 *

 * @param text      文本

 * @param processor 处理器

 */

public void parseText(String text, IHit<V> processor)

其中IHit<V>是一个轻便的接口：

/**

 * 命中一个模式串的处理方法

 */

public interface IHit<V>

{

    /**

     * 命中一个模式串

     *

     * @param begin 模式串在母文本中的起始位置

     * @param end   模式串在母文本中的终止位置

     * @param value 模式串对应的值

     */

    void hit(int begin, int end, V value);

}

调用方法

import com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie;

import com.hankcs.hanlp.dictionary.CoreDictionary;

import com.hankcs.hanlp.utility.LexiconUtility;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.TreeMap;

public static void main(String[] args) throws IOException {

TreeMap<String, String> map = new TreeMap<>();

    String[] keyArray = new String[]

        {

            "清华",

            "清华大学",

            "清新",

            "中华",

            "华人"

        };

    for (String key : keyArray) {

        map.put(key, key);

    }

    AhoCorasickDoubleArrayTrie<String> act = new AhoCorasickDoubleArrayTrie<>();

    act.build(map);

    act.parseText("清华大学生都是华人", new AhoCorasickDoubleArrayTrie.IHit<String>() {

        @Override

        public void hit(int begin, int end, String value) {

            System.out.printf("[%d:%d]=%s\n", begin, end, value);

        }

    });

}

输出：

[0:2]=清华

[0:4]=清华大学

[7:9]=华人

单独的AhoCorasickDoubleArrayTrie类库：https://github.com/hankcs/AhoCorasickDoubleArrayTrie

HanLP — Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机的更多相关文章

中文分词系列（二）基于双数组Tire树的AC自动机
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自 ...
双数组字典树(Double Array Trie)
参考文献 1.双数组字典树(DATrie)详解及实现 2.小白详解Trie树 3.论文<基于双数组Trie树算法的字典改进和实现> DAT的基本内容介绍这里就不展开说了,从Trie过来的同 ...
从Trie树到双数组Trie树
Trie树原理又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,能在常数时间O(len)内实现插入和查 ...
[转]双数组TRIE树原理
原文名称: An Efficient Digital Search Algorithm by Using a Double-Array Structure 作者: JUN-ICHI AOE 译文: 使 ...
中文分词系列（一）双数组Tire树(DART)详解
1 双数组Tire树简介双数组Tire树是Tire树的升级版,Tire取自英文Retrieval中的一部分,即检索树,又称作字典树或者键树.下面简单介绍一下Tire树. 1.1 Tire树 Trie ...
双数组Trie树 (Double-array Trie) 及其应用
双数组Trie树(Double-array Trie, DAT)是由三个日本人提出的一种Trie树的高效实现 [1],兼顾了查询效率与空间存储.Ansj便是用DAT(虽然作者宣称是三数组Trie树,但 ...
双数组trie树的基本构造及简单优化
一基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现.它本质上是一个确定的有限状 ...
python Trie树和双数组TRIE树的实现. 拥有3个功能:插入,删除,给前缀智能找到所有能匹配的单词
#coding=utf- #字典嵌套牛逼,别人写的,这样每一层非常多的东西,搜索就快了,树高26.所以整体搜索一个不关多大的单词表 #还是O(). ''' Python 字典 setdefault() ...
双数组Trie树(DoubleArrayTrie)Java实现
http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE ...
Ansj分词双数组Trie树实现与arrays.dic词典格式
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format ...

随机推荐

Python数据分析易错知识点归纳（六）：机器学习
六.机器学习分类和聚类的区别分类是有监督学习,聚类是无监督学习分类算法用于预测新样本,聚类用于理解已知数据标准化/归一化 type_se_num = type_se[type_se!= 'ob ...
家人们，我把B站首页写出来了！！！
在学习HTML5和CSS3的过程中,总是感觉没有一个完全自己做出来的页面,一直在各大网站上面寻找合适的适合自己去仿写的页面代码,奈何找了很久都没有找到,在CSDN上找的各种什么电商页面,小米商城页面之 ...
Cloudflare 重定向配置
最近把之前的一个网站域名换成另一个域名,想要添加一下重定向,避免流量流失(虽然本来就没流量).然后在 Cloudflare 配置时尝试多次都失败了,遇到各种 Your connection is no ...
CSDN这么公然爬取（piao qie）cnblogs的文章，给钱了吗？
在CSDN网站经常看到有博客转载cnblogs的文章,开始还以为是网友自行转载,后来才发现,这些所谓的转载应该都是机器爬取(piao qie)过去的.不知道cnblogs对此怎么看. 下面看看几个示例 ...
《CUDA编程：基础与实践》读书笔记(2)：CUDA内存
1. 全局内存核函数中的所有线程都能够访问全局内存(global memory).全局内存的容量是所有设备内存中最大的,但由于它没有放在GPU芯片内部,因此具有相对较高的延迟和较低的访问速度,cud ...
CF992E Nastya and King-Shamans 题解
传送门分析由于满足 \(a_i\ge0\),所以 \(s_i\) 单调不减. 当我们找到一个 \(i\) 时,不管 \(i\) 是否满足,下一个可能的一定大于等于 \(a_i+s_{i-1}\). ...
《SQL与数据库基础》18. MySQL管理
目录 MySQL管理系统数据库常用工具 mysql mysqladmin mysqlbinlog mysqlshow mysqldump mysqlimport source 本文以 MySQL ...
git status详解
git status详解在使用Git进行版本控制时,git status是一个非常有用的命令,用于查看当前代码仓库的状态.它可以告诉你哪些文件已更改.添加或删除,以及是否有未提交的更改等.本篇博客文 ...
jenkin部署（docker+gitlab）
第一部分安装部署 1.1 gitlab安装部署最小配置内存至少4g,系统内核至少在3.10以上 uname -r 可查看系统内核版本默认docker已经安装 1.安装gitlab 127机器 ...
JS逆向实战23 某市wss URL加密+请求头+ws收发
声明本文章中所有内容仅供学习交流,抓包内容.敏感网址.数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 本文首发链接为: http ...

HanLP — Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机

HanLP — Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机的更多相关文章

随机推荐

热门专题