Trie 树, 又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。

Trie 有三种结构: 标准trie (standard trie)、压缩trie、后缀trie(suffix trie) 。 最后一种将在《字符串处理4:后缀树》中详细讲,这里只将前两种。

1. 标准Trie (standard trie)

标准 Trie树的结构 : 所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。 假如有这样一个字符串集合X{bear,bell,bid,bull,buy,sell,stock,stop}。它的标准Trie树如下图:

上图(蓝色圆形结点为内部结点,红色方形结点为外部结点),我们可以很清楚的看到字符串集合X构造的Trie树结构。其中从根结点到红色方框叶子节点所经历的所有字符组成的串就是字符串集合X中的一个串。

注意这里有一个问题: 如果X集合中有一个串是另一个串的前缀呢? 比如,X集合中加入串bi。那么上图的Trie树在绿色箭头所指的内部结点i 就应该也标记成红色方形结点。这样话,一棵树的枝干上将出现两个连续的叶子结点(这是不合常理的)。

也就是说字符串集合X中不存在一个串是另外一个串的前缀 。如何满足这个要求呢?我们可以在X中的每个串后面加入一个特殊字符$(这个字符将不会出现在字母表中)。这样,集合X{bear$、bell$、.... bi$、bid$}一定会满足这个要求。

总结:一个存储长度为n,来自大小为d的字母表中s个串的集合X的标准trie具有性质如下:

(1) 树中每个内部结点至多有d个子结点。

(2) 树有s个外部结点。

(3) 树的高度等于X中最长串的长度。

(4) 树中的结点数为O(n)。

标准 Trie树的查找

对于英文单词的查找,我们完全可以在内部结点中建立26个元素组成的指针数组。如果要查找a,只需要在内部节点的指针数组中找第0个指针即可(b=第1个指针,随机定位)。时间复杂度为O(1)。

查找过程:假如我们要在上面那棵Trie中查找字符串bull (b-u-l-l)。

(1) 在root结点中查找第('b'-'a'=1)号孩子指针,发现该指针不为空,则定位到第1号孩子结点处——b结点。

(2) 在b结点中查找第('u'-'a'=20)号孩子指针,发现该指针不为空,则定位到第20号孩子结点处——u结点。

(3) ... 一直查找到叶子结点出现特殊字符'$'位置,表示找到了bull字符串

如果在查找过程中终止于内部结点,则表示没有找到待查找字符串。

效率:对于有n个英文字母的串来说,在内部结点中定位指针所需要花费O(d)时间,d为字母表的大小,英文为26。由于在上面的算法中内部结点指针定位使用了数组随机存储方式,因此时间复杂度降为了O(1)。但是如果是中文字,下面在实际应用中会提到。因此我们在这里还是用O(d)。 查找成功的时候恰好走了一条从根结点到叶子结点的路径。因此时间复杂度为O(d*n)。

但是,当查找集合X中所有字符串两两都不共享前缀时,trie中出现最坏情况。除根之外,所有内部结点都自由一个子结点。此时的查找时间复杂度蜕化为O(d*(n^2))

标准 Trie树的Java代码实现:

  1. StandarTire.java
  2. Trie 树, 又称字典树,单词查找树。
  3. 它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。
  4. @author arhaiyun
  5. date:2013/09/23
  6. */
  7. import java.util.*;
  8. enum NodeKind{LN, BN};
  9. /**
  10. *Trie node
  11. */
  12. class TrieNode
  13. {
  14. char key;
  15. TrieNode[] points = null;
  16. NodeKind kind = null;
  17. }
  18. /**
  19. * Branch node
  20. */
  21. class BranchNode extends TrieNode
  22. {
  23. BranchNode(char k)
  24. {
  25. super.key = k;
  26. super.kind = NodeKind.BN;
  27. super.points = new TrieNode[27];
  28. }
  29. }
  30. /**
  31. * Leaf node
  32. */
  33. class LeafNode extends TrieNode
  34. {
  35. LeafNode(char k)
  36. {
  37. super.key = k;
  38. super.kind = NodeKind.LN;
  39. }
  40. }
  41. public class StandardTrie
  42. {
  43. //Create root node
  44. TrieNode root = new BranchNode(' ');
  45. //[1].Insert a word into tire tree
  46. public void insert(String words)
  47. {
  48. TrieNode curNode = root;
  49. //add '$' as an end symbol
  50. words = words + "$";
  51. char[] chars = words.toCharArray();
  52. for(int i = 0; i < chars.length; i++)
  53. {
  54. if(chars[i] == '$')
  55. {
  56. curNode.points[26] = new LeafNode('$');
  57. }
  58. else
  59. {
  60. int pSize = chars[i] - 'a';
  61. // If not exists creat a new branch node
  62. if(curNode.points[pSize] == null)
  63. {
  64. curNode.points[pSize] = new BranchNode(chars[i]);
  65. }
  66. curNode = curNode.points[pSize];
  67. }
  68. }
  69. }
  70. //[2].Check if a word is in tire tree
  71. public boolean fullMatch(String words)
  72. {
  73. TrieNode curNode = root;
  74. char[] chars = words.toCharArray();
  75. for(int i = 0; i < chars.length; i++)
  76. {
  77. int pSize = chars[i] - 'a';
  78. System.out.print(chars[i]+"->");
  79. if(curNode.points[pSize] == null)
  80. return false;
  81. curNode = curNode.points[pSize];
  82. }
  83. if(curNode.points[26] != null && curNode.points[26].key == '$')
  84. return true;
  85. return false;
  86. }
  87. //[3].preorder root traverse
  88. private void preorderTraverse(TrieNode curNode)
  89. {
  90. if(curNode != null)
  91. {
  92. System.out.print(curNode.key);
  93. if(curNode.kind == NodeKind.BN)
  94. {
  95. for(TrieNode node : curNode.points)
  96. {
  97. preorderTraverse(node);
  98. }
  99. }
  100. else
  101. System.out.println();
  102. }
  103. }
  104. //[4].Get root node
  105. public TrieNode getRoot()
  106. {
  107. return this.root;
  108. }
  109. public static void main(String[] args)
  110. {
  111. StandardTrie trie = new StandardTrie();
  112. trie.insert("amazon");
  113. trie.insert("yahoo");
  114. trie.insert("haiyun");
  115. trie.insert("baidu");
  116. trie.insert("alibaba");
  117. trie.insert("offer");
  118. trie.insert("stock");
  119. trie.insert("stop");
  120. trie.preorderTraverse(trie.getRoot());
  121. System.out.println(trie.fullMatch("yahoo"));
  122. System.out.println(trie.fullMatch("yaho"));
  123. System.out.println(trie.fullMatch("baidu"));
  124. System.out.println(trie.fullMatch("alibaba"));
  125. }
  126. }

Trie树(转:http://blog.csdn.net/arhaiyun/article/details/11913501)的更多相关文章

  1. 线段树详解 (原理,实现与应用)(转载自:http://blog.csdn.net/zearot/article/details/48299459)

    原文地址:http://blog.csdn.net/zearot/article/details/48299459(如有侵权,请联系博主,立即删除.) 线段树详解    By 岩之痕 目录: 一:综述 ...

  2. http://blog.csdn.net/v_july_v/article/details/6543438

    本文转载至: http://blog.csdn.net/v_july_v/article/details/6543438 算法 程序员面试.算法研究.编程艺术.红黑树.数据挖掘5大经典原创系列集锦与总 ...

  3. 转:Java面试题集(51-70) http://blog.csdn.net/jackfrued/article/details/17403101

    Java面试题集(51-70) Java程序员面试题集(51-70) http://blog.csdn.net/jackfrued/article/details/17403101 摘要:这一部分主要 ...

  4. 解析Javascript事件冒泡机制(转) 本文转自:http://blog.csdn.net/luanlouis/article/details/23927347

    本文转自:http://blog.csdn.net/luanlouis/article/details/23927347 1. 事件 在浏览器客户端应用平台,基本生都是以事件驱动的,即某个事件发生,然 ...

  5. 抽象类和接口有什么区别---https://blog.csdn.net/csdn_aiyang/article/details/71171886

    https://blog.csdn.net/csdn_aiyang/article/details/71171886 概念]   抽象类.具体类是相对的,并非绝对的.抽象是一种概念性名词,具体是一种可 ...

  6. http://blog.csdn.net/pizi0475/article/details/48286579 -------------(Collada 快速入门)

    http://blog.csdn.net/zhouhangjay/article/details/8469085 说明:Collada的文件格式,中文版的很少,在csdn上看到了一个Sleepy的,感 ...

  7. 转载 WPF -- 控件模板 (ControlTemplate)(一) https://blog.csdn.net/qq_23018459/article/details/79899838

    ControlTemplate(控件模板)   https://blog.csdn.net/qq_23018459/article/details/79899838 WPF包含数据模板和控件模板,其中 ...

  8. http://blog.csdn.net/java2000_wl/article/details/8627874

    http://blog.csdn.net/java2000_wl/article/details/8627874

  9. android 蓝牙 http://blog.csdn.net/u012843100/article/details/52384219

    http://blog.csdn.net/u012843100/article/details/52384219

随机推荐

  1. UML中类结构图示例

  2. [Android] 基于 Linux 命令行构建 Android 应用(七):自动化构建

    本章将演示如何基于 Linux 命令行构建 Android 应用,在开始本章之前,希望你已经阅读之前几章内容. 本文环境为 RHEL Sandiego 32-bits,要基于 Linux CLI 构建 ...

  3. EGit系列第三篇——远程提交代码

    接着上篇,把本地项目提交一次才能Pull,为什么要Pull而不直接Remote Push呢,因为本地和远程仓库内容不一样(通常在远程仓库第一次新建项目会带一个README.md), 要先把远程仓库的东 ...

  4. Power BI 报表服务器发布

    Power BI 报表服务器让你的用户能够访问数据.获取见解,并能够使用 SQL 报表服务器服务的企业报告功能 - 这一切都在现代本地解决方案中完成.让用户能够直观浏览数据并快速发现模式,以便更快作出 ...

  5. EF中的预先加载和延迟加载

    延迟加载(Lazy Loading):当实体第一次被读取时,相关数据不会被获取,只会读取本身.延迟加载的数据不会一次性查出来,而是一条一条的查询,这样就会多次请求数据库进行查询. 预先加载<Ea ...

  6. 栈的C语言实现

    在C++中,可以直接使用std::stack C语言实现如下: stack.c /** * @file stack.c * @brief 栈,顺序存储. * * * */ #include <s ...

  7. Android源码服务专家(申明:来源于网络)

    Android源码服务专家(申明:来源于网络) 地址:http://www.javaapk.com/topics/demo/page/20/

  8. 大疆OSMO口袋云台相机惊艳上市!友商该如何是好。。。

    2018.11.29 晚上更新: 下午看了大疆新出的口袋云台摄像机,感觉棒极了,于是我立刻去了京东下单预订了.目前是可以免息分期6个月就可以搞定了.‘ 大家敬请期待我的评测视频吧. ======== ...

  9. 简单示例用例(Simple Example Use Cases)--hive GettingStarted用例翻译

    1.MovieLens User Ratings First, create a table with tab-delimited text file format: 首先,创建一个通过tab分隔的表 ...

  10. 制作STM32开发板要买的电子元器件

    1.STM32F103VET6芯片 2.电阻(10K.1.5K.1K.510R.47R.27R.0R) 3.电容(104.4.7uf.1uf.22uf.10pf.) 4.二极管(普通二极管D1206. ...