本文用尽量简洁的语言介绍一种树形数据结构 —— Trie树。

一、什么是Trie树

Trie树，又叫字典树、前缀树（Prefix Tree）、单词查找树 或键树，是一种多叉树结构。如下图：

上图是一棵Trie树，表示了关键字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。从上图可以归纳出Trie树的基本性质：

根节点不包含字符，除根节点外的每一个子节点都包含一个字符。
从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串。
每个节点的所有子节点包含的字符互不相同。

通常在实现的时候，会在节点结构中设置一个标志，用来标记该结点处是否构成一个单词（关键字）。

可以看出，Trie树的关键字一般都是字符串，而且Trie树把每个关键字保存在一条路径上，而不是一个结点中。另外，两个有公共前缀的关键字，在Trie树中前缀部分的路径相同，所以Trie树又叫做前缀树（Prefix Tree）。

二、Trie树的优缺点

Trie树的核心思想是空间换时间，利用字符串的公共前缀来减少无谓的字符串比较以达到提高查询效率的目的。

优点

插入和查询的效率很高，都为O(m)，其中 m 是待插入/查询的字符串的长度。
- 关于查询，会有人说 hash 表时间复杂度是O(1)不是更快？但是，哈希搜索的效率通常取决于 hash 函数的好坏，若一个坏的 hash 函数导致很多的冲突，效率并不一定比Trie树高。
Trie树中不同的关键字不会产生冲突。
Trie树只有在允许一个关键字关联多个值的情况下才有类似hash碰撞发生。
Trie树不用求 hash 值，对短字符串有更快的速度。通常，求hash值也是需要遍历字符串的。
Trie树可以对关键字按字典序排序。

缺点

当 hash 函数很好时，Trie树的查找效率会低于哈希搜索。
空间消耗比较大。

三、Trie树的应用

1、字符串检索

检索/查询功能是Trie树最原始的功能。思路就是从根节点开始一个一个字符进行比较：

如果沿路比较，发现不同的字符，则表示该字符串在集合中不存在。
如果所有的字符全部比较完并且全部相同，还需判断最后一个节点的标志位（标记该节点是否代表一个关键字）。

struct trie_node

{

    bool isKey;   // 标记该节点是否代表一个关键字

    trie_node *children[26]; // 各个子节点

};

2、词频统计

Trie树常被搜索引擎系统用于文本词频统计。

struct trie_node

{

    int count;   // 记录该节点代表的单词的个数

    trie_node *children[26]; // 各个子节点

};

思路：为了实现词频统计，我们修改了节点结构，用一个整型变量count来计数。对每一个关键字执行插入操作，若已存在，计数加1，若不存在，插入后count置1。

注意：第一、第二种应用也都可以用 hash table 来做。

3、字符串排序

Trie树可以对大量字符串按字典序进行排序，思路也很简单：遍历一次所有关键字，将它们全部插入trie树，树的每个结点的所有儿子很显然地按照字母表排序，然后先序遍历输出Trie树中所有关键字即可。

4、前缀匹配

例如：找出一个字符串集合中所有以ab开头的字符串。我们只需要用所有字符串构造一个trie树，然后输出以a->b->开头的路径上的关键字即可。

trie树前缀匹配常用于搜索提示。如当输入一个网址，可以自动搜索出可能的选择。当没有完全匹配的搜索结果，可以返回前缀最相似的可能。

5、作为其他数据结构和算法的辅助结构

如后缀树，AC自动机等。

四、Trie树的实现

这里为了方便，我们假设所有的关键字都由 a-z 的字母组成。下面是 trie 树的一种典型实现：

#include <iostream>

#include <string>

using namespace std;

#define ALPHABET_SIZE 26

typedef struct trie_node

{

    int count;   // 记录该节点代表的单词的个数

    trie_node *children[ALPHABET_SIZE]; // 各个子节点

}*trie;

trie_node* create_trie_node()

{

    trie_node* pNode = new trie_node();

    pNode->count = 0;

    for(int i=0; i<ALPHABET_SIZE; ++i)

        pNode->children[i] = NULL;

    return pNode;

}

void trie_insert(trie root, char* key)

{

    trie_node* node = root;

    char* p = key;

    while(*p)

    {

        if(node->children[*p-'a'] == NULL)

        {

            node->children[*p-'a'] = create_trie_node();

        }

        node = node->children[*p-'a'];

        ++p;

    }

    node->count += 1;

}

/**

 * 查询：不存在返回0，存在返回出现的次数

 */

int trie_search(trie root, char* key)

{

    trie_node* node = root;

    char* p = key;

    while(*p && node!=NULL)

    {

        node = node->children[*p-'a'];

        ++p;

    }

    if(node == NULL)

        return 0;

    else

        return node->count;

}

int main()

{

    // 关键字集合

    char keys[][8] = {"the", "a", "there", "answer", "any", "by", "bye", "their"};

    trie root = create_trie_node();

    // 创建trie树

    for(int i = 0; i < 8; i++)

        trie_insert(root, keys[i]);

    // 检索字符串

    char s[][32] = {"Present in trie", "Not present in trie"};

    printf("%s --- %s\n", "the", trie_search(root, "the")>0?s[0]:s[1]);

    printf("%s --- %s\n", "these", trie_search(root, "these")>0?s[0]:s[1]);

    printf("%s --- %s\n", "their", trie_search(root, "their")>0?s[0]:s[1]);

    printf("%s --- %s\n", "thaw", trie_search(root, "thaw")>0?s[0]:s[1]);

    return 0;

}

对于Trie树，我们一般只实现插入和搜索操作。这段代码可以用来检索单词和统计词频。

个人站点：http://songlee24.github.com

Trie树（Prefix Tree）介绍的更多相关文章

分形树Fractal tree介绍——具体如何结合TokuDB还没有太懂，先记住其和LSM都是一样的适合写密集
在目前的Mysql数据库中,使用最广泛的是innodb存储引擎.innodb确实是个很不错的存储引擎,就连高性能Mysql里都说了,如果不是有什么很特别的要求,innodb就是最好的选择.当然,这偏文 ...
B树，B+树，红黑树应用场景AVL树，红黑树，B树，B+树，Trie树
B B+运用在file system database这类持续存储结构,同样能保持lon(n)的插入与查询,也需要额外的平衡调节.像mysql的数据库定义是可以指定B+ 索引还是hash索引. C++ ...
AVL树，红黑树，B-B+树，Trie树原理和应用
前言:本文章来源于我在知乎上回答的一个问题 AVL树,红黑树,B树,B+树,Trie树都分别应用在哪些现实场景中? 看完后您可能会了解到这些数据结构大致的原理及为什么用在这些场景,文章并不涉及具体操作 ...
[BinaryTree] AVL树、红黑树、B/B+树和Trie树的比较
转自:AVL树.红黑树.B/B+树和Trie树的比较 AVL树最早的平衡二叉树之一.AVL是一种高度平衡的二叉树,所以通常的结果是,维护这种高度平衡所付出的代价比从中获得的效率收益还大,故而实际的应 ...
Trie树(代码)，后缀树（代码）
Trie树系列 Trie字典树压缩的Trie 后缀树Suffix tree 后缀树--ukkonen算法 Trie是通过对字符串进行预先处理,达到加快搜索速度的算法.即把文本中的字符串转换为树结构, ...
基于trie树的具有联想功能的文本编辑器
之前的软件设计与开发实践课程中,自己构思的大作业题目.做的具有核心功能,但是还欠缺边边角角的小功能和持久化数据结构,先放出来,有机会一点点改.github:https://github.com/chu ...
Prefix tree
Prefix tree The trie, or prefix tree, is a data structure for storing strings or other sequences in ...
BZOJ 3261 最大异或和可持久化Trie树
题目大意:给定一个序列,提供下列操作: 1.在数组结尾插入一个数 2.给定l,r,x,求一个l<=p<=r,使x^a[p]^a[p+1]^...^a[n]最大首先我们能够维护前缀和然后 ...
Trie树（小）总结 By cellur925
关于\(Trie\)树的详细介绍,还请移步这篇深度好文基本操作插入 void insert() { int p=0; int len=strlen(tmp+1); for(int i=1;i< ...

随机推荐

最后一个非零数字（POJ 1604、POJ 1150、POJ 3406）
POJ中有些问题给出了一个长数字序列(即序列中的数字非常多),这个长数字序列的生成有一定的规律,要求求出这个长数字序列中某个位上的数字是多少.这种问题通过分析,找出规律就容易解决. 例如,N!是一个非 ...
使用 reduce 实现数组 map 方法
//使用 reduce 实现数组 map 方法 const selfMap2 = function (fn, context){ let arr = Array.prototype.slice.cal ...
VC++检测硬件设备状态
首先捕捉WM_DEVICECHANGE消息,该消息在usb插拔时均有触发. MFC下添加消息处理函数afx_msg BOOL OnDeviceChange( UINT nEventType, DWO ...
HTTP的工作原理
客户机与服务器建立连接后,发送一个请求给服务器,请求格式为:统一资源标识符.协议版本号.服务器收到请求的信息(包括请求行,请求头,请求体).服务器接收到请求后,给予相应的响应信息,格式为一个状态行(包 ...
shell脚本批量/单独启动、停止、重启java独立jar程序
本人最近半年使用阿里dubbo做开发,并在公司内部大力进行推广,将原来一个笨重且不易于维护的大项目切分成多个相对独立的java程序,好处是显而易见的,但是随着切分的独立运行程序包越来越多,程序的部署变 ...
[GXOI/GZOI2019]与或和(单调栈)
想了想决定把这几题也随便水个解题报告... bzoj luogu 思路: 首先肯定得拆成二进制30位啊此后每一位的就是个01矩阵 Q1就是全是1的矩阵个数 Q2就是总矩阵个数减去全是0的矩阵个数 ...
零基础入门学习Python（17）--函数：Python的乐高积木
前言相信大家小时候都玩过神奇的乐高积木, 只要通过想象力和创造力我们可以拼凑很多神奇的东西,那么随着我们学习的深入,我们编写的Python代码也将日益增加,并且也越来越复杂, 所以呢,我们需要找寻一 ...
linux与linux之间共享目录
1.安装必要的包 nfs-utils rpcbind (nfs是基于sun公司的rpc通信实现的,所以要装rpcbind) 这2包,在服务端和客户端都需要安装,并启动服务. 启动 ...
JavaScript关键字
JavaScript关键字制作人:全心全意 abstract continue finally instanceof private this boolean default float int p ...
ubuntu 安装 navicat
下载navicat解压到opt目录创建桌面快捷方式sudo vim /usr/share/applications/navicat.desktop [Desktop Entry] Encoding= ...

Trie树（Prefix Tree）介绍