hive的分桶原理

套话之分桶的定义：

　　分桶表是对列值取哈希值的方式，将不同数据放到不同文件中存储。对于 hive 中每一个表、分区都可以进一步进行分桶。

列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。（网上其它定义更详细，有点绕，结合后面实例）

适用场景：数据抽样（ sampling ）、map-join

干货之分桶怎么分：

1.开启支持分桶

set hive.enforce.bucketing=true;
默认：false；设置为 true 之后，mr 运行时会根据 bucket 的个数自动分配 reduce task 个数。
（用户也可以通过 mapred.reduce.tasks 自己设置 reduce 任务个数，但分桶时不推荐使用）
注意：一次作业产生的桶（文件数量）和 reduce task 个数一致。

2.往分桶表中加载数据
insert into table bucket_table select columns from tbl;
insert overwrite table bucket_table select columns from tbl;

3.桶表抽样

select * from bucket_table tablesample(bucket 1 out of 4 on columns);
TABLESAMPLE 语法：
TABLESAMPLE(BUCKET x OUT OF y)
x：表示从哪个 bucket 开始抽取数据
y：必须为该表总 bucket 数的倍数或因子

4.分桶实例（详解）

具体如下：

1.启动hive（远程一体化模式）：①service iptables stop // ② service mysqld start // ③hive ---service metastore //④ hive(老套路）

2.准备：在node03节点的root/hivedata目录下创建一个数据文件ft

①vim ft

1       zhang   12

2       lisi    34

3       wange   23

4       zhouyu  15

5       guoji   45

6       xiafen  48

7       yanggu  78

8       liuwu   41

9       zhuto   66

10      madan   71

11      sichua  89

注意:这里的数据间是用制表符'\t'来分隔的,后面在建表的时候要注意 terminated by '\t'; 不然导入表中的数据因为格式不符出现'null'

②在数据库heh.db中建表:

hive> CREATE TABLE ft( id INT, name STRING, age INT)

    > ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t';

OK

Time taken: 0.216 seconds

hive> load data local inpath'/root/hivedata/ft' into table ft;

Loading data to table hehe.ft

Table hehe.ft stats: [numFiles=1, totalSize=127]

OK

Time taken: 1.105 seconds

hive> select *from ft;

OK

1    zhang    12

2    lisi    34

3    wange    23

4    zhouyu    15

5    guoji    45

6    xiafen    48

7    yanggu    78

8    liuwu    41

9    zhuto    66

10    madan    71

11    sichua    89

NULL    NULL    NULL

Time taken: 0.229 seconds, Fetched: 12 row(s)

再创建一张分桶表fentong并把ft的数据插入到fentong:

hive> create table fentong(

    > id  int,

    > name string,

    > age int,)clustered by(age) into 4 buckets

    > row format delimited fields terminated by ',';

创建一张表:它以字段age来划分成4个桶

插入数据:
hive> insert into table fentong select name,age from ft;

ok! 现在分桶表中出现之前创建的数据:select * from  fentong

③执行抽样: select id, name, age from fentong tablesample(bucket 1 out of 4 on age);

网上很多案例教程说的非常绕,一时很难离清楚,现分享如下通俗易懂的教程:

怎么分:①在前面创建分桶表的时候有这样语句:age int,)clustered by(age) into 4 buckets 说明本案例是以年龄age来划分成4个桶;

分桶的数据怎么分到四个桶:它是将表中对应的字段值(比如age)分别来除以桶的个数4,结果取余数(也就是取模),若余数为0就放到1号桶,余数为1就放到2号桶
余数为2就放到3号桶,余数为3就放到4号桶

②这句话怎么理解:select id, name, age from psnbucket tablesample(bucket 2 out of 4 on age);

它是说:将你的数据划分成4个桶,取四个桶中的第一个桶的数据

③运行程序

hive> select id, name, age from fentong tablesample(bucket 1 out of 4 on age);

OK

NULL    NULL    NULL

6    xiafen    48

1    zhang    12

hive> select id, name, age from fentong tablesample(bucket 2 out of 4 on age);

OK

11    sichua    89

8    liuwu    41

5    guoji            45

hive> select id, name, age from fentong tablesample(bucket 3 out of 4 on age);

OK

9    zhuto    66

7    yanggu    78

2    lisi    34

④推算过程:

hive的分桶原理的更多相关文章

Hive的分桶表
[分桶概述] Hive表分区的实质是分目录(将超大表的数据按指定标准细分到指定目录),且分区的字段不属于Hive表中存在的字段:分桶的实质是分文件(将超大文件的数据按指定标准细分到分桶文件),且分桶的 ...
Hive 的分桶 & Parquet 概念
分区 & 分桶都是把数据划分成块.分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率. 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据 ...
hive，分桶，内外部表，分区
简单的word-count操作: [root@master test-map]# head -10 The_Man_of_Property.txt #先看看数据Preface“The Forsy ...
hive的分桶
套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于 hive 中每一个表.分区都可以进一步进行分桶. 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中.(网上其它定 ...
hive学习笔记之五：分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive 分区表和分桶表
1.创建分区表 hive> create table weather_list(year int,data int) partitioned by (createtime string,area ...
Hive动态分区和分桶（八）
Hive动态分区和分桶 1.Hive动态分区 1.hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在 ...
hive 分桶及抽样调查
1.分桶的概述分区提供了一个隔离数据和优化查询的遍历方式.不是所有的数据集都可形成合力的分区对于一张表或者分区,hive可以进一步组织成桶,也就是更为细粒度的数据范围分区针对的是数据的存储路径( ...
Hive SQL之分区表与分桶表
Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也 ...

随机推荐

4484: [Jsoi2015]最小表示（拓扑序+bitset维护连通性）
4484: [Jsoi2015]最小表示题目链接题解: bitset的题感觉都好巧妙啊QAQ. 因为题目中给出的是一个DAG,如果\(u->v\)这条边可以删去,等价于还存在一个更长的路径可 ...
类数组对象与arguments
类数组对象所谓的类数组对象: 拥有一个 length 属性和若干索引属性的对象举个例子: var array = ['name', 'age', 'sex']; var arrayLike = { ...
keil中error: #70: incomplete type is not allowed—解决方法
今天在写程序的时候,想使用sizeof求数组的大小,数组中其他c文件定义,在头文件使用extern uint8_t buff_value[]; 声明但是keil编译报错,网上查了,发现,需要写成ex ...
例程使用（1-4）共享内存存图片+vector容器教程
1传输的数据 1-1数据格式说明 1 两路视频图像Mat 图像图像数据(Mat)+图像头信息(ImgInf) //图像的宽.高.类型信息 typedef struct { int width; // ...
Reincarnation HDU - 4622 （后缀自动机）
Reincarnation \[ Time Limit: 3000 ms\quad Memory Limit: 65536 kB \] 题意给出一个字符串 \(S\),然后给出 \(m\) 次查询, ...
div模拟textarea且高度自适应
需求我们知道文本超出 textarea 高度后,textarea 就会出现滚动条,需求就是让 textarea 高度跟随文本高度变化,屏蔽滚动条,原来做过用js去监听文本行数,然后改变文本框的高度, ...
分析WordPress数据表之评论表(功能篇)
数据表分析 wp_comments(评论表) 该表字段,如下:comment_ID(评论ID)comment_post_ID(评论文章ID)comment_author(评论者用户名)comment_ ...
迁移学习、fine-tune和局部参数恢复
参考:迁移学习——Fine-tune 一.迁移学习就是把已训练好的模型参数迁移到新的模型来帮助新模型训练. 模型的训练与预测: 深度学习的模型可以划分为训练和预测两个阶段. 训练分为两种策 ...
leetcode 494. 目标数
题目描述: 给定一个非负整数数组,a1, a2, ..., an, 和一个目标数,S.现在你有两个符号 + 和 -.对于数组中的任意一个整数,你都可以从 + 或 -中选择一个符号添加在前面. 返回可以 ...
【转】目前为止最透彻的的Netty高性能原理和框架架构解析
转自:https://zhuanlan.zhihu.com/p/48591893 1.引言 Netty 是一个广受欢迎的异步事件驱动的Java开源网络应用程序框架,用于快速开发可维护的高性能协议服务器 ...

hive的分桶原理

hive的分桶原理的更多相关文章

随机推荐

热门专题