Trie树理解

前言

Trie树又称单词查找树，字典树，是哈希树的变种；

优点在于：最大限度地减少无谓的字符串比较，查询效率比哈希高；

缺点在于：空间消耗很大；

性质

其基本性质可以归纳为：

跟结点不包括字符，除跟结点以外，每个结点只包含一个字符；
从跟结点到某一个结点，路径上经过的字符连接起来，为该结点对应的字符串；
每个结点的所有子结点包含的字符串不相同；

其中结点对儿子的指向，有三种方法：

对每个结点开字母集大小的数组，对应的下标是儿子所表示的字母，内容则是这个儿子对应在大数组上的位置，即标号；
对每个结点连一个链表，按一定顺序记录每个儿子；
使用树的左儿子右兄弟表示法

第一种方法容易实现，但实际的空间要求比较大，第二种，较易实现，空间要求相对较小，但比较费时，第三种，空间要求最小，但相对费时而且不易写；

示意图

代码：

const int MAX_CHARS = 26;

class TrieNode {

public:

    TrieNode(string s) : isWord(false), word(s) {

        memset(children, 0, sizeof(children));

    }

    string word;

    bool isWord; // 标记该结点是否构成单词

    TrieNode* children[MAX_CHARS]; // 子树

};

class TrieTree {

public:

    TrieTree():root(new TrieNode("")) {}

    ~TrieTree() { freeTree(root); }

    TrieNode * getRoot() {

        return root;

    }

    void addWord(string & s) {

        TrieNode * node = root;

        string t;

        for (int i = 0; i < s.size(); ++i) {

            t += s[i];

            if (node->children[s[i] - 'a'] == NULL) {

                node->children[s[i] - 'a'] = new TrieNode(t);

            }

            node = node->children[s[i] - 'a'];

        }

        node->isWord = true;

    }

private:

    TrieNode * root;

    void freeTree(TrieNode* node) {

        for (int i = 0; i < MAX_CHARS; ++i) {

            if (node->children[i] != NULL) {

                freeTree(node->children[i]);

            }

        }

        delete node;

    }

};

例题

以例题 Word Search ||，从字符数组中连接字符并查找有无符合字符串数组的字符串；

贴上代码：

/// 使用Trie树进行

class TrieNode {

public:

    TrieNode(string s) : isWord(false), word(s) {

        memset(children, 0, sizeof(children));

    }

    string word;

    bool isWord; // 是否到达终点

    TrieNode* children[MAX_CHARS];

};

class TrieTree {

public:

    TrieTree():root(new TrieNode("")) {}

    ~TrieTree() { freeTree(root); }

    TrieNode * getRoot() {

        return root;

    }

    void addWord(string & s) {

        TrieNode * node = root;

        string t;

        for (int i = 0; i < s.size(); ++i) {

            t += s[i];

            if (node->children[s[i] - 'a'] == NULL) {

                node->children[s[i] - 'a'] = new TrieNode(t);

            }

            node = node->children[s[i] - 'a'];

        }

        node->isWord = true;

    }

private:

    TrieNode * root;

    void freeTree(TrieNode* node) {

        for (int i = 0; i < MAX_CHARS; ++i) {

            if (node->children[i] != NULL) {

                freeTree(node->children[i]);

            }

        }

        delete node;

    }

};

void helper2(vector<vector<char>> & board, TrieNode* root, vector<string> & result, int i, int j) {

    if (i < 0 || j < 0 || i >= board.size() || j >= board[0].size() || board[i][j] == '*')

        return;

    char ch = board[i][j];

    root = root->children[ch - 'a'];

    if (root == NULL) return;

    if (root->isWord) {

        result.push_back(root->word);

        root->isWord = false;

    }

    board[i][j] = '*';

    helper2(board, root, result, i - 1, j);

    helper2(board, root, result, i + 1, j);

    helper2(board, root, result, i, j - 1);

    helper2(board, root, result, i, j + 1);

    board[i][j] = ch;

}

vector<string> findWords3(vector<vector<char>>& board, vector<string>& words) {

    TrieTree t;

    for (int i = 0; i < words.size(); ++i) {

        t.addWord(words[i]);

    }

    vector<string> result;

    for (int i = 0; i < board.size(); ++i) {

        for (int j = 0; j < board[i].size(); ++j) {

            helper2(board, t.getRoot(), result, i, j);

        }

    }

    return result;

}

bool test() {

    vector<vector<char>> board1 = {

        {'o','a','a','n'},

        {'e','t','a','e'},

        {'i','h','k','r'},

        {'i','f','l','v'}

    };

    vector<string> words1 = {"oath","pea","eat","rain"};

    vector<vector<char>> board2 = {

        {"a", "a"}

    };

    vector<string> words2 = {"aaa"};

    vector<string> result = findWords3(board1, words1);

    cout << result.size() << endl;

    return true;

}

分析

在trie树中查找一个关键字的时间和树中包含的结点数目无关，而是取决于组成关键字的字符数。而二叉查找树的查找时间的树中的结点数目有关，其时间复杂度为O（log2n）。

如果要查找的关键字可以分解成字母序列并且不是很长，利用trie树查找速度优于二叉查找树。比如若关键字长度最大是5，则利用trie树，利用5次比较可以从26^5＝11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行次比较。

应用

字符串的检索，词频统计，搜索引擎的热门查询；

像是一些大数据的问题，像是：

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

给出N 个单词组成的熟词表，以及一篇全用小写英文书写的文章，请你按最早出现的顺序写出所有不在熟词表中的生词。

给出一个词典，其中的单词为不良单词。单词均为小写字母。再给出一段文本，文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如，若rob是不良单词，那么文本problem含有不良单词。

1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串

寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。

字符串的最长公共前缀；

举例：

给出N 个小写英文字母串，以及Q 个询问，即询问某两个串的最长公共前缀的长度是多少. 解决方案：

首先对所有的串建立其对应的字母树。此时发现，对于两个串的最长公共前缀的长度即它们所在结点的公共祖先个数，于是，问题就转化为了离线（Offline）的最近公共祖先（Least Common Ancestor，简称LCA）问题。

而最近公共祖先问题同样是一个经典问题，可以用下面几种方法：

1. 利用并查集（Disjoint Set），可以采用采用经典的Tarjan 算法；

2. 求出字母树的欧拉序列（Euler Sequence ）后，就可以转为经典的最小值查询（Range Minimum Query，简称RMQ）问题了；

排序；

trie树是一颗多叉树，只需要先序遍历整棵树，输出相应的字符串便是字典序的结果。
作为其他数据结构和算法的辅助结构；

像是后缀树，AC自动机等；

这些问题，我打算在后面专门来做总结；

高级实现

双数组实现(后面会有专门的文章记录实现)

Trie树理解的更多相关文章

Trie树理解
Trie树的理解 Trie树又称单词查找树,字典树,是哈希树的变种: 优点在于:最大限度地减少无谓的字符串比较,查询效率比哈希高: 缺点在于:空间消耗很大: 性质其基本性质可以归纳为: 跟结点不包括 ...
Trie树之C-实现
title: Trie树之C++实现 comments: true date: 2016-10-02 16:59:54 categories: 算法 tags: Trie树前言之前写了一篇偏向于理 ...
Atitit 常见的树形结构红黑树二叉树 B树 B+树 Trie树 attilax理解与总结
Atitit 常见的树形结构红黑树二叉树 B树 B+树 Trie树 attilax理解与总结 1.1. 树形结构-- 一对多的关系1 1.2. 树的相关术语: 1 1.3. 常见的树形结构 ...
【动画】看动画轻松理解「Trie树」
Trie树 Trie这个名字取自“retrieval”,检索,因为Trie可以只用一个前缀便可以在一部字典中找到想要的单词. 虽然发音与「Tree」一致,但为了将这种字典树与普通二叉树以示区别 ...
Trie树【P3879】 [TJOI2010]阅读理解
Description 英语老师留了N篇阅读理解作业,但是每篇英文短文都有很多生词需要查字典,为了节约时间,现在要做个统计,算一算某些生词都在哪几篇短文中出现过. Input 第一行为整数N,表示短文 ...
13-看图理解数据结构与算法系列(Trie树)
Trie树 Trie树,是一种搜索树,也称字典树或单词查找树,此外也称前缀树,因为某节点的后代存在共同的前缀.它的key都为字符串,能做到高效查询和插入,时间复杂度为O(k),k为字符串长度,缺点是如 ...
【BZOJ-4523】路由表 Trie树 + 乱搞
4523: [Cqoi2016]路由表 Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 155 Solved: 98[Submit][Status][ ...
[知识点]Trie树和AC自动机
// 此博文为迁移而来,写于2015年5月27日,不代表本人现在的观点与看法.原始地址:http://blog.sina.com.cn/s/blog_6022c4720102w1s8.html 1.前 ...
字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树后缀树后缀数组
涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟 ...

随机推荐

sleep命令
sleep支持睡眠(分,小时) sleep 1 睡眠1秒 sleep 1s 睡眠1秒 sleep 1m 睡眠1分 sleep 1h 睡眠1小时
【Git】Git与GitHub 入门【转】
转自:http://www.cnblogs.com/lcw/p/3394545.html GitHub GitHub是一个基于git的代码托管平台,付费用户可以建私人仓库,我们一般的免费用户只能使用公 ...
SQl 跨服务器查询脚本示例
1.采用OPENDATASOURCE select top 10 *from OPENDATASOURCE('SQLOLEDB','Data Source=IP地址;User ID=连接用户名称;Pa ...
order by 的列名不能参数化，要拼sql
from T_COMPANY c join T_COMPANY_POSITION p on c.ID = p.COMPANYID order by :type desc nulls last; 最初不 ...
vue总结 04过渡--进入/离开列表过渡
进入/离开 & 列表过渡概述 Vue 在插入.更新或者移除 DOM 时,提供多种不同方式的应用过渡效果.包括以下工具: 在 CSS 过渡和动画中自动应用 class 可以配合使用第三方 CS ...
【前端vue开发】Hbuilder配置Avalon、AngularJS、Vue指令提示
偶尔也会研究一下前端内容,因为Hbuilder是基于eclipse开发的,所以用起来倍感亲切啊,而且在我尝试使用的几款前端开发工具中,Hbuilder的表现也是相当出色地,可以访问Huilder官网下 ...
MYSQL-重做系统恢复MYSQL过程
记笔记是好习惯,记笔记是好习惯,记笔记是好习惯! 重要的事情说三遍. 说多了都是泪.第一次装MYSQL时候就遇到了很多问题,当时解决了忘记记录了.家里硬盘满了,于是买了个4T的硬盘重装系统.重装系统后 ...
java基础29 迭代器 listIterator() 及各种遍历集合的方法
listIterator() 迭代器包含了 Iterator() 迭代器中的所有方法. 1.ListIterator的常用方法 hasPrevious() :判断是否还有上一个元素,有则返回true ...
排序与相关性(Sorting and Relevance)
本文翻译自Elasticsearch官方指南的Sorting and Relevance一章的第一节. 原文地址:http://www.elastic.co/guide/en/elasticsearc ...
pip3
pip3 install django #安装rabbitmq连接模块 pip3 install pika pip3 install paramiko pip3 install ipython pip ...

Trie树理解

前言

性质

示意图

代码：

例题

分析

应用

高级实现

Trie树理解的更多相关文章

随机推荐

热门专题