Hive分桶

1.简介

　　分桶表是对列值取哈希值的方式将不同数据放到不同文件中进行存储。对于hive中每一个表，分区都可以进一步进行分桶。由列的哈希值除以桶的个数来决定数据划分到哪个桶里。

2.适用场景

　　1.数据抽样【sampling】

　　2.map-join

3.开启支持分桶

　　配置;set hive.enforce.bucketing=true;

　　默认值：false

　　设置为true后，mapreduce运行时会根据bucket的个数自动分配reduce task个数

　　注意：首次作业产生的桶【文件个数】和reduce task个数一致。

4.加载数据　　

　　执行：

　　　　insert into table bucket_table select columnd from tbl;

　　　　insert override table bucket_table select columns from tbl;

5.抽样

　　执行：

　　　　select * from bucket_table tablesample(bucket 1 out of 4 on columns);

　　语法：TABLESAMPLE(BUCKET x OUT OF y)

　　备注：y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取【64/32】2个bucket的数据，当y=128时，抽取【64/128】1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取【32/16】2个bucket的数据，分别为第3个bucket和第【3+16】19个bucket的数据。

6.创建分桶表

　　执行：
　　　　create table psnbucket(id INT,name STRING,age INT) clustered by (age) into 4 buckets row format delimited fields terminated by ',';

Hive分桶的更多相关文章

二 Hive分桶
二.Hive分桶 1.创建分桶表 create table t_buck (id string ,name string) clustered by (id) //根据id分桶 sorted by ( ...
hive分桶与保存数据的方式
创建分桶的表 create table t_buck(id int ,name string) clustered by (id ) sorted by (id) into 4 buckets ; ...
hive分桶表bucketed table分桶字段选择与个数确定
为什么分桶 (1)获得更高的查询处理效率.桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构.具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map ...
hive 分桶及抽样调查
1.分桶的概述分区提供了一个隔离数据和优化查询的遍历方式.不是所有的数据集都可形成合力的分区对于一张表或者分区,hive可以进一步组织成桶,也就是更为细粒度的数据范围分区针对的是数据的存储路径( ...
Hive分区表与分桶
分区表在Hive Select查询中.通常会扫描整个表内容,会消耗非常多时间做不是必需的工作. 分区表指的是在创建表时,指定partition的分区空间. 分区语法 create table tab ...
Hive动态分区和分桶（八）
Hive动态分区和分桶 1.Hive动态分区 1.hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在 ...
Hive 的分桶 & Parquet 概念
分区 & 分桶都是把数据划分成块.分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率. 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据 ...
Hive 实战(2)--hive分区分桶实战
前言: 互联网应用, 当Mysql单机遇到性能瓶颈时, 往往采用的优化策略是分库分表. 由于互联网应用普遍的弱事务性, 这种优化效果非常的显著.而Hive作为数据仓库, 当数据量达到一定数量时, 查询 ...
HIVE—索引、分区和分桶的区别
一.索引简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapRed ...

随机推荐

Ubuntu安装apache+Yii2
1.下载Yii2 https://www.yiichina.com/download 2.将解压后的文件放在指定的位置,这里是/home/www/yii/ 3.安装apache2 sudo apt-g ...
SQLServer之修改数据库架构
修改数据库架构注意事项用户与架构完全分离. ALTER SCHEMA 仅可用于在同一数据库中的架构之间移动安全对象. 若要更改或删除架构中的安全对象,请使用特定于该安全对象的 ALTER 或 DRO ...
windows根据端口号杀进程
有时候eclipse会被卡死, 结束进程后重新启动项目会出现端口已经被占用这时候需要杀掉进程 1, cmd打开dos窗口 2, netstat -ano | findstr "端口号&qu ...
ambari2.6.50 openssl 版本问题：SSLError: Failed to connect. Please check openssl library versions. Openssl error upon host registration
I'm trying to register hostnames in Ambari but getting the error below. We tried to run yum update o ...
三种方式实现观察者模式及 Spring中的事件编程模型
观察者模式可以说是众多设计模式中,最容易理解的设计模式之一了,观察者模式在Spring中也随处可见,面试的时候,面试官可能会问,嘿,你既然读过Spring源码,那你说说Spring中运用的设计模式吧, ...
[翻译]Java排错指南 - 5 确定崩溃何地发生
原文地址: https://docs.oracle.com/javase/8/docs/technotes/guides/troubleshoot/crashes001.html 这几天公司其他组遇到 ...
【python3基础】相对路径，‘/’，‘./’，‘../’
python3相对路径 “/” 前有没有 “.” ,有几个“.”,意思完全不一样. “/”:表示根目录,在windows系统下表示某个盘的根目录,如“E:\”: “./”:表示当前目录:(表示当前目录 ...
一句话，讲清楚java泛型的本质（非类型擦除）
背景昨天,在逛论坛时遇到个这么个问题,上代码: public class GenericTest { //方法一 public static <T extends Comparable< ...
使用 EOLINKER 进行接口测试的最佳路径 (下)
本文为 <使用 EOLINKER 进行接口测试的最佳路径> 下半部分文章,主要介绍测试脚本如何执行和报告生成,以及测试项目人员如何协作.还没看过上篇文章请戳使用 EOLINKER 进行接 ...
centos7 python3 pip
pip of python3 installed is play well with Django and spider. #安装pip可以很好的使用django和爬虫 wget https:// ...

Hive分桶

1.简介

2.适用场景

3.开启支持分桶

4.加载数据

5.抽样

6.创建分桶表

Hive分桶的更多相关文章

随机推荐

热门专题

4.加载数据