1. hive 桶相关概念
    桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。
    抽样(
sampling
)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。

   
2. 桶作用

1)数据抽样

2)提升某些查询操作效率,如:mapside join 

3. 桶的使用
  

--场景一、场景二使用此表说明 
以id来划分桶,测试是否可以直接使用load将数据放入相关的桶中。
create table tb_user (id int ,name string,age int) partitioned by (timeflag bigint) clustered by (id) sorted by (age asc) into 4 buckets  row format delimited fields terminated by ',';


测试数据:
[hadoop@mwtec-50 tmp]$ hadoop fs -cat /user/hive/warehouse2/tb_user/timeflag=130730/tb_user;
1,nat,18,130731
0,joe,19,130730
2,kay,14,130729
3,ann,18,130730
4,add,19,130730
5,ads,20,130821
6,dsf,19,130901
7,ll,19,130721
8,aas,15,130721


--场景七
使用name来划分桶,测试是否可以使用字符串进行划分。
create table tb_stu_1(id int,age int, name string,timeflag bigint)  clustered by (name) sorted by (age) into 5  buckets row format delimited fields terminated  by ',';

--其他场景:
使用id来划分桶,测试桶的一些特性。
create table tb_tmp(id int,age int, name string ,timeflag bigint) row format delimited fields terminated by ','; 


create table tb_stu(id int,age int, name string,timeflag bigint)  clustered by (id) sorted by (age) into 5  buckets row format delimited fields terminated  by ',';

测试数据:
1,20,zxm,20130730
2, 21, ljz,20130730
3, 19, cds,20130730
4, 18, mac,20130730
5, 22, android,20130730
6, 23, symbian,20130730
7, 25, wp, 20130730


相关操作语句:

1. [hadoop@mwtec-50 tmp]$ vi tb_tmp

1,20,zxm,20130730
2, 21, ljz,20130730
3, 19, cds,20130730
4, 18, mac,20130730
5, 22, android,20130730
6, 23, symbian,20130730
7, 25, wp, 20130730


2.  hadoop fs -put /tmp/tb_tmp /user/hadoop/output

3.  load data inpath '/user/hadoop/output/tb_tmp' into table tb_tmp;

场景一: 使用load data inpath 进行导入

语句:
load data inpath '/user/hadoop/output/tb_user' into table tb_user partition(timeflag=130730);

注:使用load data时数据之间不能有空格,否则输入的数据会为null
执行结果:



结果分析:
直接使用load data inpath 不能自动分为四个桶,所有数据都在tb_user目录下。

场景二:先 set hive.enforce.bucketing = true; 再使用load data inpath 进行导入
注:退出hive客户端
语句:
set hive.enforce.bucketing = true; 
load data inpath '/user/hadoop/output/tb_user' into table tb_user partition(timeflag=130730);
执行结果:


结果分析:
先 set hive.enforce.bucketing = true; 再使用load data inpath 进行导入 不能自动分为四个桶,所有数据都在tb_user目录下。

场景三:退出hive客户端后再进入hive客户端,不使用set hive.enforce.bucketing = true,使用insert into table 命令写数据至tb_stu表中。

语句:
insert into table tb_stu select id,age,name,timeflag from tb_tmp where timeflag=20130730 sort by age;

执行过程:

结果分析:

在没有set hive.enforce.bucketing = true时,只有一个job且查看hdfs时,只发现有一个目录,并非有5个目录。从而可知在执行桶的插入语句时需要先执行set hive.enforce.bucketing = true;

场景四:使用set hive.enforce.bucketing = true,使用insert into table 命令写数据至tb_stu表中。

语句:

insert into table tb_stu select id,age,name,timeflag from tb_tmp where timeflag=20130730 sort by age;
执行过程:


结果分析:
使用set hive.enforce.bucketing = true后,插入的语句的job数为2个,hdfs下有5个桶。

场景五:使用桶的抽样(
sampling)
语句:
 select * from tb_stu  tablesample(bucket 1 out of 5 on id);
执行过程:

结果分析:
用tablesample 子句对表进行取样,可以获得相同结果,这样子句将查询限定在表的一部分桶内,而不是使用整个表。如:上图所示,能被5求余得1的桶的所有数据将被查询出来。

场景六:使用桶的抽样(
sampling),且使用rand()函数
语句:
  select * from tb_stu  tablesample(bucket 1 out of 5 on rand());  
执行过程: 


结果分析:
查询只需要读取和tablesample子句匹配的桶,所取样分桶是非常高效的操作。如果使用rand()函数对没有划分成桶的表进行取样,即使只需要读取很小一部分样本,也要扫描整个输入数据集。

场景七:

语句:
insert into table tb_stu_1 select id,age,name,timeflag from tb_tmp;

相关结果:


结果分析:

hive表中分桶不仅可以使用数字也可以使用字符串进行桶。


总结分析:

1. 定义了桶,但要生成桶的数据,只能是由其他表通过insert into 或是insert overwrite ,若表有分区只能使用insert overwrite 

2. 定义桶可以使用整型字段或是string类型字段

3.  若表没有定义桶也可以进行随机抽样

4. 必须先set hive.enforce.bucketing = true才可以将数据正常写入桶中

未解决问题:

问题一、桶表有分区时不支持insert into 


问题二、
此时建表语句为:
create table tb_stu(id int,age int, name string) partitioned by (timeflag bigint) clustered by (id) sorted by (age) into 4  buckets row format delimited fields terminated  by ',';
使用:
insert into table partition(timeflag=130801) select id,age,name,timeflag from tb_tmp;

出现如下异常:

hive 桶相关特性分析的更多相关文章

  1. [转帖]我最近研究了hive的相关技术,有点心得,这里和大家分享下。

    我最近研究了hive的相关技术,有点心得,这里和大家分享下. https://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html 首 ...

  2. Hive(六)hive执行过程实例分析与hive优化策略

    一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...

  3. MySQL · 特性分析 · 优化器 MRR & BKA【转】

    MySQL · 特性分析 · 优化器 MRR & BKA 上一篇文章咱们对 ICP 进行了一次全面的分析,本篇文章小编继续为大家分析优化器的另外两个选项: MRR & batched_ ...

  4. Kafka Producer相关代码分析【转】

    来源:https://www.zybuluo.com/jewes/note/63925 @jewes 2015-01-17 20:36 字数 1967 阅读 1093 Kafka Producer相关 ...

  5. 初窥css---选择器及相关特性

    选择器及相关特性 基础选择器 标签选择器 相当于全选,在我看来局限性较大,也没啥意义的感觉,用处不太大 id选择器 有利于对于某个小盒子的部分属性进行改变,但是若是需要改的小盒子很多的话,就会很麻烦 ...

  6. C#中的自定义控件中的属性、事件及一些相关特性的总结(转)

      摘要: C#中的自定义控件中的属性(Property).事件(Event)及一些相关特性(Attribute)的总结 今天学习了下C#用户控件开发添加自定义属性的事件,主要参考了MSDN,总结并实 ...

  7. java8的相关特性

    1,为什么要介绍java8的相关特性? 因为现在的企业大部分已经从java7向java8开始迈进了,用java8的公司越来越多了,java8中的一些知识还是需要了解一些的; java8具有以下特点: ...

  8. 支付宝支付之扫码支付(电脑网站支付)、H5支付(手机网站支付)相关业务流程分析总结

    前言 在上一篇文章<微信支付之扫码支付.公众号支付.H5支付.小程序支付相关业务流程分析总结>中,分析和总结了微信支付相关支付类型的业务流程,这里作为与微信支付平起平坐不相伯仲的支付宝支付 ...

  9. Redis连接池的相关问题分析与总结

    https://mp.weixin.qq.com/s/juvr89lAvM0uuDmyWyvqNA 阿里干货课堂丨Redis连接池的相关问题分析与总结 原创 技术僧 Java进阶与云计算开发 2018 ...

随机推荐

  1. awk文本处理--二维数组使用一例

    群友出的题: 原始文件: $ cat fileBJ30 26BJ30 24BJ30 63BJ30 70SH41 21SH41 30SH41 25SH41 25SH41 29SD15 34SD15 46 ...

  2. HDU 3829 Cat VS Dog(最大独立集)

    题目大意: 有n只猫,有m只狗.现在有P个学生去参观动物园.每个孩子有喜欢的动物和不喜欢的动物.假如他喜欢猫那么他就一定不喜欢狗(反之亦然). 如果一个孩子喜欢一个动物,那么这个动物不会被移除,若是不 ...

  3. 【图论】Codeforces 711D Directed Roads

    题目链接: http://codeforces.com/problemset/problem/711/D 题目大意: 给一张N个点N条有向边的图,边可以逆向.问任意逆向若干条边使得这张图无环的方案数( ...

  4. 固定IP和绑定了MAC,可以在设置无线路由器供笔记本电脑和平板上网吗?

    固定IP和绑定了MAC,可以在设置无线路由器供笔记本电脑和平板上网吗? 这跟我们单位一样.很简单:首先要占一个 IP/MAC ,能上外网的,这首先要有,谁要肯给地址,我们这儿领导才有呢.我是网管,当然 ...

  5. Rectangle Area——LeetCode

    Find the total area covered by two rectilinear rectangles in a 2D plane. Each rectangle is defined b ...

  6. android webview load 本地文件需要注意的地方

    记得在工程的main下必须是assets文件夹. 而webview.loadUrl时 必须是   android_asset 必须这样对应,否则无法加载本地html. 具体原因只能在深入学习后再总结了 ...

  7. GitHub上传不了的解决 ssh: connect to host github.com port 22: Bad file number git did not exit cleanly (exit code 128)

    问题情况 本来一直用的是github的客户端,结果现在上传的时候出问题了,去网站上看,新项目已经创建,但是代码却怎么都上传不上去.于是只好用命令行的方式解决. Tortoisegit上是这样说的: g ...

  8. ssh技巧

    1. 打通ssh key的简单方法: ssh-copyid 192.168.1.1 2.使用ssh 将Linux主机变成http代理服务器 ssh -NfD 192.168.22.1:10080 12 ...

  9. XDocument和XmlDocument的区别

    刚开始使用Xml的时候,没有注意到XDocument和XmlDocument的区别,后来发现两者还是有一些不同的. XDocument和XmlDocument都可以用来操作XML文档,XDocumen ...

  10. Bash 字符串处理命令

    字符串长度 str="abc" echo ${#str} 查找子串的位置 str="abc" str1=`expr index $str "a&quo ...