Double-Array Trie分词词典简述

http://www.xuebuyuan.com/1991441.html

一、TRIE树简介（以下简称T树）

TRIE树用于确定词条的快速检索，对于给定的一个字符串a₁,a₂,a₃,…a_n，则采用TRIE

树搜索经过最多n次匹配即可完成一次查找，而与词库中词条的数目无关。它的缺点是空间空闲率高。

二、Double-Array Trie（双数组索引树，以下简称DAT）

1）、DAT简介

DAT是TRIE树的一种变形，它是在保证TRIE树检索速度的前提下，提高空间利用率而提出的一种数据结构。它本质是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态，根据变量的不同，进行状态转移，当到达结束状态或者无法转移的时候，完成查询。

2）、DAT结构

DAT是采用两个线性数组（姑且叫它们为base和check数组）进行TRIE树的保存， base和check数组拥有一致的下标，（下标）即DFA中的每一个状态，也即TRIE树中所说的节点，base数组用于确定状态的转移，check数组用于检验转移的正确性。

于是：我们有如下

[定义1]：从状态s输入c到状态t的一个转移必须满足如下条件

base[s] + c == t
check[base[s] + c] == s

3)、DAT匹配

基于[定义1] DAT的匹配过程如下：

假设当前状态为s，输入字符为c。

t = base[s] + c;

if check[t] = s then

next state = t;

else

fail;

endif

3）、DAT构造

基于[定义1] DAT的构造过程如下：

root_index = 1;

Procedure daInsertBranch(String key)
begin
   index = root_index;
   for i = 0 to key.length()
   begin
      character c = key.get(i)
      t = base[index] + c;       1
           [ 。。。此处执行冲突处理。。。]
      check[t] = index;           2
      index = t;
   end
   base[t] *= -1;
end

4)、DAT冲突处理

在执行3的过程中，有可能在1处插入状态t时该位置已经被其他状态 t1所占用，这就产生了冲突。

解决冲突的基本思想是为t以及t的所有兄弟状态重新寻找一个合适的状态，相当于寻找一个合适的数组下标。

//  寻找适当的base值，也相当于为所有子状态寻找合适的下标
Procedure intdaFindBase(character c, int oldbase_index)
begin
   if check[ base[oldbase_index] + c ] != 0 then
   begin
      foreach character a in ALPHABET(字母表)
      begin
        if check[ base[oldbase_index] + a ] != 0 then
              Add a to child_list;
      end
      Add c to child_list;
      base[oldbase_index]++;
while ( not fit each character )
begin
        base[oldbase_index]++;
end
   end
   return base[oldbase_index];
end

// 重新分配
Procedure intdaRelocateBase (int old_index, int new_index)
begin
    //拷贝所有节点到新的位置，并修改被拷贝节点的所有子节点的check值以保证
    //在移动之后仍然是其子节点
    foreach character c in child_list
        begin
            copy cell from old_index to new_index
            begin
               get all childs of old_index;
               check[child] = new_index;
          end
          //释放所有旧的节点
         free old_index cell;
      end
     base[oldbase_index] = newbase;
end

冲突处理位于3）构造中的 2 前面

Double-Array Trie分词词典简述的更多相关文章

双数组字典树(Double Array Trie)
参考文献 1.双数组字典树(DATrie)详解及实现 2.小白详解Trie树 3.论文<基于双数组Trie树算法的字典改进和实现> DAT的基本内容介绍这里就不展开说了,从Trie过来的同 ...
double array trie 插入结点总结
双数组Trie树索引的可操作性研究.pdf 提示:任一状态点的移动,会影响其Trie树中父节点的base值的选择以及兄弟结点位置的变动,而兄弟结点的移动又须变更相应的子节点的check值. 设待插入的 ...
sphinx索引分析——文件格式和字典是double array trie 检索树，索引存储 – 多路归并排序，文档id压缩 – Variable Byte Coding
1 概述这是基于开源的sphinx全文检索引擎的架构代码分析,本篇主要描述index索引服务的分析.当前分析的版本 sphinx-2.0.4 2 index 功能 3 文件表 4 索引文件结构 4. ...
Double Array Trie 的Python实现
不多介绍,可自行Google,或者其它关键词: "datrie" 放代码链接: double_array_trie.py 因为也是一段学习代码,参考的文章都记在里面了,主要参考gi ...
【转】B树、B-树、B+树、B*树、红黑树、二叉排序树、trie树Double Array 字典查找树简介
B 树即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right): 2.所有结点存储一个关键字: 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树: 如: ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
Save and read double array in a binary file
;} 32 bytes read 9.5 -3.4 1 2.1 "
Solr 5.x集成中文分词word，mmseg4j
使用标准分词器,如图: 使用word分词器下载word-1.3.jar,注意solr的版本和word分词的版本将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0 ...
双数组trie树的基本构造及简单优化
一基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现.它本质上是一个确定的有限状 ...

随机推荐

使用CefSharp在.Net程序中嵌入Chrome浏览器（八）——Cookie
CEF中的Cookie是通过CookieManager来管理的,可以用它来设置发送的Cookie. 发送Cookie 发送Cookie的一个基本示例如下: var cookieManager = _c ...
MongoDb GridFS的使用
MongoDb GridFS 是MongoDB的文件存储方案,主要用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片.音频等),对大文件有着更好的性能. 要在C#中使用GridFS,首先 ...
【DevOps】谁说大象不能跳舞?
作者:范军 (Frank Fan) 新浪微博:@frankfan7 微信:frankfan7 很多企业,尤其是大企业在产品开发和运维上存在着一些普遍问题,比如开发周期长.人员合作程度不高.开发和运 ...
mysqlsandbox
http://mysqlsandbox.net/ http://www.cnblogs.com/xuanzhi201111/p/3998604.html
STL中经常使用数据结构
STL中经常使用的数据结构: [1] stack.queue默认的底层实现为deque结构. [2] deque:用map管理多个size大小的连续内存块,方便头尾插入. [3] vector: ...
在VC中使用SendInput函数实现中文的自动输入
很早以前写了一个刷卡程序,功能是定时监控读卡器,当发现有IC卡放到读卡器上后,自动识别出卡号,然后带着这个卡号搜索一个英文用户名和卡号的对照表,最后把英文用户名直接自动输入到当前光标所在的位置.本来程 ...
C#编程（四十四）----------string和stringbuilder
System.String类首先string类是静态的,System.String是最常用的字符串操作类,可以帮助开发者完成绝大部分的字符串操作功能,使用方便. 1.比较字符串比较字符串是指按照字 ...
查询并发程序是否启动跟踪功能-trc文件对数据库性能有影响
/* Formatted on 2018/3/14 23:38:51 (QP5 v5.256.13226.35538) */ SELECT icon_name , row_id , user_conc ...
clientX, clientY，offsetX, offsetY,screenX, screenY, x, y
clientX, clientY是鼠标当前相对于网页的位置,当鼠标位于页面左上角时clientX=0, clientY=0: offsetX, offsetY是鼠标当前相对于网页中的某一区域的位置,当 ...
YAML 语言教程
编程免不了要写配置文件,怎么写配置也是一门学问. YAML 是专门用来写配置文件的语言,非常简洁和强大,远比 JSON 格式方便. 本文介绍 YAML 的语法,以 JS-YAML 的实现为例.你可以去 ...

Double-Array Trie分词词典简述

Double-Array Trie分词词典简述的更多相关文章

随机推荐

热门专题