hive中的桶

hive中有桶的概念，对于每一个表或者分区，可以进一步组织成桶，说白点，就是更细粒度的数据范围。
hive采用列值哈希，然后除以桶的个数以求余的方式决定该条记录存放在哪个桶当中。
使用桶的好处：
1、获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。
2、使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

需要特别注意的是：clustered by和sorted by不会影响数据的导入，这意味着，用户必须自己负责数据如何如何导入，包括数据的分桶和排序。
可以使用'set hive.enforce.bucketing = true'

可以自动控制上一轮reduce的数量从而适配bucket的个数，

看个例子

原始数据

1	15	xiaohong

2	16	xiaoming

3	17	xiaohuang

3	18	xiaocui

4	19	xiaoma

5	21	xiaocai

6	22	xiaojie

7	25	xiaoliu

8	28	xaoqi

先创建一张普通表，再创建一张桶的表。

create table student(id INT, age INT, name STRING)

partitioned by(p_date STRING)

row format delimited fields terminated by '\t';

create table  bucketed_student(id INT, age INT, name STRING)

partitioned by(stat_date STRING)

clustered by(id) sorted by(age) into 2 bucket

row format delimited fields terminated by '\t';

load数据到普通表，因为直接load到分桶的表是不会分桶，需要insert进行才会根据根据分桶要求进行分桶。

LOAD DATA LOCAL INPATH '/home//aaa' OVERWRITE INTO table bucketed_student partition(p_date='2016');

set hive.enforce.bucketing = true;

insert overwrite table bucketed_student partition(p_date='2016') select id,age,name from student where p_date=2016

查看两表的目录，发现分桶会生成两份数据文件

hadoop fs -ls /data/hive/warehouse/temp.db/bucketed_student/p_date=2016

Found 2 items

-rwxr-xr-x   3 webopa hive         50 2016-11-23 13:53 /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000000_0

-rwxr-xr-x   3 webopa hive         68 2016-11-23 13:53 /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000001_0

普通表是一份

hadoop fs -ls /data/hive/warehouse/temp.db/student/p_date=2016

Found 1 items

-rwxrwxrwx   3 webopa hive        117 2016-11-23 11:41 /data/hive/warehouse/temp.db/student/p_date=2016/aaa

查看下分通表每个文件中的数据。偶数一个文件，基数一个文件。

hadoop fs -cat /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000000_0

8	28	xaoqi

6	22	xiaojie

4	19	xiaoma

2	16	xiaoming

hadoop fs -cat /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000001_0

7	25	xiaoliu

5	21	xiaocai

3	18	xiaocui

3	17	xiaohuang

1	15	xiaohong

查看sampling数据：

select * from bucketed_student  tablesample(bucket 1 out of 2 on id);

8	28	xaoqi	2016

6	22	xiaojie	2016

4	19	xiaoma	2016

2	16	xiaoming	2016

tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取 (64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据

hive中的桶的更多相关文章

Hive学习笔记——Hive中的分桶
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记 ...
Hive中数据的导入与导出
最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中.毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容.如果哪里有错误或者疏漏 ...
061 hive中的三种join与数据倾斜
一:hive中的三种join 1.map join 应用场景:小表join大表一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...
hive，分桶，内外部表，分区
简单的word-count操作: [root@master test-map]# head -10 The_Man_of_Property.txt #先看看数据Preface“The Forsy ...
Hive分区和桶的概念
Hive 已是目前业界最为通用.廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能.稳定性等方面来说,Hive 的地位尚不可撼动. 其实这篇博文主要是想聊聊 S ...
hive的分桶
套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于 hive 中每一个表.分区都可以进一步进行分桶. 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中.(网上其它定 ...
Hive中的数据倾斜
Hive中的数据倾斜 hive 1. 什么是数据倾斜 mapreduce中,相同key的value都给一个reduce,如果个别key的数据过多,而其他key的较少,就会出现数据倾斜.通俗的说,就是我 ...
hive中的优化问题
一.fetch抓取 fetch 抓取是指,hive中对某些情况的查询可以不必使用MapReduce计算.(1)把hive.fetch.task.conversion 设置成none,然后执行查询语句, ...
Hive中的一些点
hive严格模式 Hive中Order by和Sort by的区别是什么? hive中order by,sort by, distribute by, cluster by作用以及用法 Hadoop ...

随机推荐

leetcode51. N-Queens
The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens ...
crontab 移动日志-超越昨天的自己系列(12)
linux上定时执行某些脚本是管理服务器的时候比较常用的场景,比如定时检查进程是否存在,定时启动或关闭进程,定时检查日志删除日志等. 当我打开google百度crontab时长篇大论的一大堆,详细解释 ...
UVA 572
这是一道纯正的深度优先搜索题目. 题目要求在有多少个不同的块,而不同块的定义则是,一个块中的任意一点和l另一个块中的任意一点不会相连,而相连的定义则是在横向.纵向和对角线上相连. #include& ...
UVa 439骑士的移动（BFS）
https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
关于 MaxScript 获取所有贴图
相关内容记录在官方文档 BitmapTexture : TextureMap 中 fn allUsedMaps = ( sceneMaps = usedMaps() for m in meditmat ...
装饰模式（Decorate Pattern）
在不必改变原类文件和使用继承的情况下,动态地扩展一个对象的功能.它是通过创建一个包装对象,也就是装饰来包裹真实的对象. (1) 装饰对象和真实对象有相同的接口.这样客户端对象就能以和真实对象相同的方式 ...
cdr创建样式与样式集的方法
样式是一组定义对象属性的格式化属性,如轮廓或填充.例如,要定义轮廓样式,您可以指定轮廓宽度.颜色和线条类型等属性.要定义字符样式,您可以指定字体类型.字体样式和大小.文本颜色和背景色.字符位置.大写等 ...
Morphia 学习一注解
http://blog.csdn.net/liumm0000/article/details/7535858 生命周期方法注解(delete没有生命周期事件)@PrePersist save之前被调用 ...
TIOBE Index for November 2015（转载）
原文地址:http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html November Headline: Java once a ...
FM/PCM与FM/PPM的区别
FM/PCM的优点: 1 高可靠性和高抗干扰性.大家知道,一般PPM遥控设备都要求在操作时先开发射机后开接收机,先关接收机后关发射机.其原因是在没有发射信号时,接受机会因自身内部的噪音或外界的 ...

hive中的桶

hive中的桶的更多相关文章

随机推荐

热门专题