字典树 && 例题 Xor Sum HDU

一、字典树描述：
Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计
和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大
限度地减少无谓的字符串比较，查询效率比哈希表高。

Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
它有3个基本性质：

1、根节点不包含字符，除根节点外每一个节点都只包含一个字符。
2、从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。
3、每个节点的所有子节点包含的字符都不相同。

二、字典树时间复杂度：
问题：
有一个存放英文单词的文本文件，现在需要知道某些给定的单词是否在该文件中存在，若存在，它又出现了多少次？

(暴力方法就不说了)
解法一：
如果将所有的单词都存放在一个map中，每次查找的时间复杂度则降为O(log(n))。

解法二：
假设所有字符串长度之和为n，构建字典树的时间复杂度为O(n)。假设要查找的字符串长度为k，查找的时间复杂度为:
O(k)(也相当于O(1))。

三、字典树构建：

举个在网上流传颇广的例子，如下：
题目：给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，求第一次出现在第几个位置。
分析：这题当然可以用hash来解决，但是本文重点介绍的是trie树，因为在某些方面它的用途更大。比如说对于某一个单词，我们要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单。
现在回到例子中，如果我们用最傻的方法，对于每一个单词，我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd，那么在他前面的单词中，以b，c，d，f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的，在以a开头中的单词中，我们只要考虑以b作为第二个字母的，一次次缩小范围和提高针对性，这样一个树的模型就渐渐清晰了。
好比假设有b，abc，abd，bcd，abcd，efg，hii 这6个单词，我们构建的树就是如下图这样的：

如上图所示，对于每一个节点，从根遍历到他的过程就是一个单词，如果这个节点被标记为红色，就表示这个单词存在，否则不存在。

那么，对于一个单词，我只要顺着他从根走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。

这样一来我们查询和插入可以一起完成（重点体会这个查询和插入是如何一起完成的，稍后，下文具体解释），所用时间仅仅为单词长度，在这一个样例，便是10。

我们可以看到，trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表，或者用数组来模拟动态。空间的花费，不会超过单词数×单词长度。

四、Trie树应用：

除了本文引言处所述的问题能应用Trie树解决之外，Trie树还能解决下述问题（节选自此文：海量数据处理面试题集锦与Bit-map详解）：

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
9、1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？
10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。
13、寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。
(1) 请描述你解决这个问题的思路；
(2) 请给出主要的处理流程，算法，以及算法的复杂度。

对于不同的题目可以改变字典树节点维护的信息来完成求解

五、例题讲解

Zeus 和 Prometheus 做了一个游戏，Prometheus 给 Zeus 一个集合，集合中包含了N个正整数，随后 Prometheus 将向 Zeus 发起M次询问，每次询问中包含一个正整数 S ，之后 Zeus 需要在集合当中找出一个正整数 K ，使得 K 与 S 的异或结果最大。Prometheus 为了让 Zeus 看到人类的伟大，随即同意 Zeus 可以向人类求助。你能证明人类的智慧么？

Input

输入包含若干组测试数据，每组测试数据包含若干行。

输入的第一行是一个整数T（T < 10），表示共有T组数据。

每组数据的第一行输入两个正整数N，M（<1=N,M<=100000），接下来一行，包含N个正整数，代表 Zeus 的获得的集合，之后M行，每行一个正整数S，代表 Prometheus 询问的正整数。所有正整数均不超过2^32。

Output

对于每组数据，首先需要输出单独一行”Case #?:”，其中问号处应填入当前的数据组数，组数从1开始计算。

对于每个询问，输出一个正整数K，使得K与S异或值最大。Sample Input

Sample Output

Case #1:

4

3

Case #2:

4

题解：

对于先输入的n个数，先用他们的二进制构建一颗字典树。然后对于m次询问的数x，每一次尽量走与x那一个二进制位相反值的节点(走的时候是从二进制高位向低位走)

代码有解释

代码：

 1 #include <iostream>

 2 #include <cstdio>

 3 #include <cstring>

 4 #include <cstdlib>

 5 #include <algorithm>

 6 using namespace std;

 7 typedef struct Trie* TrieNode; //注意这一行，下面如果用TrieNode声明的变量都是Trie类型的指针变量

 8 struct Trie

 9 {

10     int val;

11     TrieNode next[2];

12     Trie()

13     {

14         val = 0;

15         memset(next,NULL,sizeof(next));

16     }

17 };

18

19 void inserts(TrieNode root,int x) //按照x这个数的二进制位从高位向低位建树

20 {

21     TrieNode p = root;

22     for(int i=31 ; i>=0 ; i--)

23     {

24         int t = (x>>i)&1;

25         if(p->next[t] == NULL)p->next[t] = new struct Trie();

26         p = p->next[t];

27     }

28     p->val = x;

29 }

30

31 int query(TrieNode root,int x)

32 {

33     TrieNode p = root;

34     for(int i=31 ; i>=0 ; i--)

35     {

36         int t = ((x>>i)&1)^1;  //因为我们要让最后异或的答案尽可能地大，又因为异或运算是：“相同为0，不同为1”

37         //又因为我们是从高位开始搜索，二进制数(10000)要大于二进制数(01111),所以我们要尽量走(!(x>>i)&1)那一个

38         //节点。只有这一个节点不能走才会去走((x>>i)&1)这个节点

39         //((x>>i)&1)代表的就是x的二进制中第i位的值

40         if(p->next[t] == NULL)t = (x>>i)&1;

41         if(p->next[t])p = p->next[t];

42         else return -1; //走到了尽头就可以结束了

43     }

44     return p->val;

45 }

46

47 void Del(TrieNode root)  //用完要删除树的每一个节点

48 {

49     for(int i=0 ; i<2 ; ++i)

50     {

51         if(root->next[i])Del(root->next[i]);

52     }

53     delete(root);

54 }

55

56 int main()

57 {

58     int t,n,m,p=0;

59     scanf("%d",&t);

60     while(t--)

61     {

62         printf("Case #%d:\n",++p);

63         TrieNode root = new struct Trie();

64         scanf("%d %d",&n,&m);

65         for(int i=0 ; i<n ; ++i)

66         {

67             int t;

68             scanf("%d",&t);

69             inserts(root,t);

70         }

71         for(int i=0 ; i<m ; ++i)

72         {

73             int t;

74             scanf("%d",&t);

75             int m = query(root,t);

76             printf("%d\n",m);

77         }

78         Del(root);

79     }

80     return 0;

81 }

字典树 && 例题 Xor Sum HDU - 4825 (板子)的更多相关文章

Xor Sum HDU - 4825（01字典序板题）
#include <iostream> #include <cstdio> #include <sstream> #include <cstring> ...
3道入门字典树例题，以及模板【HDU1251/HDU1305/HDU1671】
HDU1251:http://acm.hdu.edu.cn/showproblem.php?pid=1251 题目大意:求得以该字符串为前缀的数目,注意输入格式就行了. #include<std ...
HDU6625： three arrays （字典树处理xor）
题意:给出A数组,B数组,你可以对A和B分别进行重排列,使得C[i]=A[i]^B[i]的字典序最小. 思路:对于这类题,显然需要建立字典树,然后某种形式取分治,或者贪心. 假设现在有了两颗字典树A ...
字典树-THE XOR largest pair
题目:给你n个数字A1,A2....An ,问从中选出两个数字异或运算得到的最大结果是多少 0<=Ai<231 用字典树,记录每个数字的31位2进制01串(int 为4个字节,每个字节8个 ...
双01字典树最小XOR（three arrays）--2019 Multi-University Training Contest 5（hdu杭电多校第5场）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6625 题意: 给你两串数 a串,b串,让你一一配对XOR使得新的 C 串字典序最小. 思路: 首先这边 ...
Chip Factory HDU - 5536 字典树(删除节点|增加节点)
题意: t组样例,对于每一组样例第一行输入一个n,下面在输入n个数你需要从这n个数里面找出来三个数(设为x,y,z),找出来(x+y)^z(同样也可以(y+z)^1)的最大值 ("^&qu ...
算法笔记--字典树（trie 树）&& ac自动机 && 可持久化trie
字典树简介:字典树,又称单词查找树,Trie树,是一种树形结构,是哈希树的变种. 优点:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较. 性质:根节点不包含字符,除根节点外每一个 ...
HDU 4825 Xor Sum（经典01字典树+贪心）
Xor Sum Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 132768/132768 K (Java/Others) Total ...
HDU 4825 Xor Sum 字典树+位运算
点击打开链接 Xor Sum Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 132768/132768 K (Java/Others) ...

随机推荐

【Java】一个简单的Java应用程序
简单记录,Java 核心技术卷I 基础知识(原书第10 版) 一个简单的Java应用程序"Hello, World!" Hello, World! Goodbye,World! 一 ...
Head First 设计模式 —— 15. 与设计模式相处
模式是在某情境(context)下,针对某问题的某种解决方案. P579 情景:应用某个模式的情况问题:你想在某情境下达到的目标,但也可以是某情境下的约束解决方案:一个通用的设计,用来解决约束. ...
【MySQL】一台服务器上搭建两个mysql节点
环境: CentOS 6.8 memory:1G Mysql 5.7 二进制安装包 1.安装相关的环境包 yum -y install gcc glibc libaio libstdc++ libs ...
【Oracle】归档日志的删除操作
[root@sha3 oracle]# rman target / Recovery Manager: Release 10.2.0.4.0 - Production on Tue Jan 20 01 ...
【Oracle】什么是DRM，怎么关闭
DRM 分析及案例讲解什么是DRM DRM(Dynamic Resource management)是oracle10.10.2里面推出来的一个新特性,一直到现在最新的12cR1,都存在,且bug非 ...
ajax异步实现文件分片上传
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Flink可靠性的基石-checkpoint机制详细解析
Checkpoint介绍 checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 ...
Mybatis报错:Could not find resource mybatis-conf.xml
Mybatis报错:Could not find resource mybatis-conf.xml 报错截图: 报错内容: java.io.IOException: Could not find r ...
如何实现new，call,apply,bind的底层原理。
new做了什么? new是用来实例化对象的,当new了一个对象后 1.创建一个新对象 2.将构造函数的作用域赋值给新对象(this指向新对象) 3.执行构造函数里面的代码(为这个新对象添加属性) 4. ...
Python_ 1生成器（上）初识生成器
引言:列表生成式现在有个需求,给定列表[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],现在要求你把列表里的每个值加1,你怎么实现?你可能会想到2种方式 1 >>> a ...

字典树 && 例题 Xor Sum HDU - 4825 (板子)

字典树 && 例题 Xor Sum HDU - 4825 (板子)的更多相关文章

随机推荐

热门专题