Hive中Bucket的应用

　　网友南京-李先森给了他收集的一些资料，如下：

　　Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00020

　　这段描述是说用了bucket之后的，那为什么要用bucket，没说，本着认真负责的态度，我从网上搜索到了Oreilly《Programming.Hive》这本书，然后在里面找到了答案，现在发出来和大家分享一下。

　　首先回顾一下分区，分区是切分数据的一种比较方便的方法，比较常用的就是按照日期来进行切分，bucket（中文意思就是篮子，可以放鸡蛋，哈哈）其实也是一种切分数据的方法。

　　假设我们有一张日志表，我们需要按照日期和用户id来分区，目的是为了加快查询谁哪天干了什么，如下：

 CREATE TABLE weblog (url STRING, source_ip STRING)

> PARTITIONED BY (dt STRING, user_id INT);

　　但是这里面用user_id去切分的话，就会产生很多很多的分区了，这些分区可大可小，这个数量是文件系统所不能承受的。

　　在这种情况下，我们既想加快查询速度，又避免出现如此多的小分区，篮子（bucket）就出现了。

　　具体的用法是：

CREATE TABLE weblog (user_id INT, url STRING, source_ip STRING)

> PARTITIONED BY (dt STRING)

> CLUSTERED BY (user_id) INTO 96 BUCKETS;

　　首先按照日期分区，分区结束之后再按照user_id把日志放在96个篮子，这样同一个用户的所有日志都会在同一个篮子里面，并且一个篮子里面有好多用户的日志。

　　然后我们在插入数据的时候就要注意了，我们一定要设置hive.enforce.bucketing为true。

hive> SET hive.enforce.bucketing = true;
hive> FROM raw_logs

> INSERT OVERWRITE TABLE weblog

> PARTITION (dt='2009-02-25')

> SELECT user_id, url, source_ip WHERE dt='2009-02-25';

　　到此，bucket介绍完毕！

博文是转载的...

岑玉海: http://www.cnblogs.com/cenyuhai/p/3323467.html

Hive中Bucket的应用的更多相关文章

061 hive中的三种join与数据倾斜
一:hive中的三种join 1.map join 应用场景:小表join大表一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...
Hive学习笔记——Hive中的分桶
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记 ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
Hive中的一些点
hive严格模式 Hive中Order by和Sort by的区别是什么? hive中order by,sort by, distribute by, cluster by作用以及用法 Hadoop ...
SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
hive中rcfile格式(收藏文)
首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮 ...
hive中分析函数window子句
hive中有些分析函数功能确实很强大,在和sum,max等聚合函数结合起来能实现不少功能. 直接上代码演示吧原始数据 channel1 2016-11-10 1 channel1 2016-11-1 ...
hive中的一种假NULL现象
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起 ...
hive中导入json格式的数据（hive分区表）
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...

随机推荐

第5章原型模式（Protype Pattern）
原文第5章原型模式(Protype Pattern) 定义:用原型实例指定创建对象的种类,并通过拷贝这些原型创建新的对象. 原型图: 原型模式主要用于对象的复制,它的核心是就是类图中的原型类Pro ...
转让lua性能executeGlobalFunction
没有其他的,搞搞cocos2dx的lua文字,话lua这件事情在几年前学过一段时间.还曾对自己c++介面,我已经做了一些小东西.只是时间的流逝,模糊记忆. 拿起点功夫和成本.下面是我的一些经验. co ...
华为OJ: 公共字符串计算
有几个需要注意的地方,这个问题是不是大写和小写之间的区别.这样你就输入字符串大写或小写转换的计算前. 第二个,定要清晰.先将s1从[i]处開始与s2的[j]開始匹配,不相等则j++直到j等于s2.le ...
浅谈 js 正则字面量与 new RegExp 执行效率
原文:浅谈 js 正则字面量与 new RegExp 执行效率前几天谈了正则匹配 js 字符串的问题:<js 正则学习小记之匹配字符串> 和 <js 正则学习小记之匹配字符串优化 ...
采纳ajax提交POST样本数据
问题叙述性说明我们会form该input和checkbox提交给异步数据phpserver.处理后的回. 提交之后显示的位置: 难点分析採用from表单的onsubmit属性阻止表单的提交 < ...
vim温馨提示
(一)各种文本操作各种跳转 h,j,k,l h左移一个字符,j下移一行,k上移一行,l右移一个字符 w.b w 下一个单词,b上一个单词 0,$ 行首,行尾 G,gg.30% 3G跳到第3行,g ...
代码走查工具StyleCop建议采用的规则总结
代码走查工具StyleCop建议采用的规则总结续接上篇:代码走查工具篇SytleCop的规则总结与翻译,本篇主要是以我个人的观点总结的一份建议使用的Rule点. 建议使用的Rule点 1.公共的接口 ...
linux通过key区别登陆的人
key区分登录用户脚本放 /etc/profile.d,会默认登录的时候执行, 类似于 #!/bin/bash # filename: /etc/profile.d/set_log_file.sh ...
Linq实现对XML的简单增删查改
一.传统DOM创建XML方法 private static void CreateXmlDocWithDom() { XmlDocument doc =new XmlDocument(); XmlEl ...
sql事务，在sql2000里判断执行是否成功用@@ERROR 判断
原文:sql事务,在sql2000里判断执行是否成功用@@ERROR 判断贴个sql事务,在sql2000里判断执行是否成功用@@ERROR 判断这个东西多少还是有点问题,sql2005了可以用t ...

Hive中Bucket的应用

Hive中Bucket的应用的更多相关文章

随机推荐

热门专题