今天讲讲分区表和分桶表，前面的文章还没看的可以点击链接：

hive从入门到放弃(一)——初识hive

hive从入门到放弃(二)——DDL数据定义

 hive从入门到放弃(三)——DML数据操作

分区

分区可以提高查询效率，实际上 hive 的一个分区就是 HDFS 上的一个目录，目录里放着属于该分区的数据文件。

分区的基本操作

创建分区表

create table partition_table(

	col1 int,

	col2 string

)

partitioned by (part_col string)

row format delimited fields terminated by '\t';

*分区字段不能是表中字段

创建完分区表如果需要将数据导入表中，需要用 load 命令导入；

 load data local inpath

'/data_dir/data_file' into table partition_table

partition(part_col='20220331');

如果是在 HDFS 中创建目录并将数据文件传到目录中，是没办法查到的，因为查询分区表是需要查询元数据的;

如果非要用这种方法或者已经做了，可以执行修复命令: msck repair table table_name;

查看分区

show partitions partition_table;

查询

select * from partition_table where part_col='20220331';

添加分区

alter table partition_table add partition(part_col='20220331');

删除分区

alter table partition_table drop partition(part_col='20220331');

二级分区

二级分区相当于在一级分区对应的目录上新增一个目录，一般用于单个分区数据量很大，需要做拆解的情况。

创建二级分区表

create table partition_table(

	col1 int,

	col2 string

)

partitioned by (part_col1 string, part_col2 string)

row format delimited fields terminated by '\t';

二级分区表的其它操作与一级的区别不大，因此不做过多的描写。

动态分区

关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中

Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，不过使用 Hive 的动态分区需要进行相应的配置。

开启动态分区功能（默认 true，开启）

hive.exec.dynamic.partition=true

设置为非严格模式

hive.exec.dynamic.partition.mode=nonstrict

默认 strict，表示至少指定一个分区为静态分区，nonstrict 表示允许所有的分区字段都能使用动态分区。

在所有执行 MR 的节点上，最大一共可以创建多少个动态分区。默认 1000

hive.exec.max.dynamic.partitions=1000

在每个执行 MR 的节点上，最大可以创建多少个动态分区。比如源数据中包含了一年的数据，即 day 字段有 365 个值，那么该参数就

需要设置成大于 365，如果使用默认值 100，则会报错。

hive.exec.max.dynamic.partitions.pernode=100

动态插入数据到分区

insert into partition_table partition(part_col) select * from table_name;

分桶

分区提高了数据的查询效率，同时还能将数据隔离开，但是并非所有数据能形成合理的分区。

hive可以将数据进行分桶，不同于分区是针对存储路径进行分类，分桶是在数据文件中对数据进行划分的一种技术。

分桶是指定某一列，让该列数据按照哈希取模的方式随机、均匀的分发到各个桶文件中。

创建分桶表

-- 分 6 个桶的分桶表

create table bucket_table(col1 int, col2 string)

clustered by(col1)

into 6 buckets

row format delimited fields terminated by '\t';

加载数据

加载数据到分桶表中可以使用 load 或者 insert 的方式。

需要注意的是，reduce 的个数设置应该为-1,让 Job 自行决定需要用多少个 reduce 或者将 reduce 的个

数设置为大于等于分桶表的桶数。

抽样

对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结

果。Hive 可以通过对表进行抽样来满足这个需求。

语法：tablesample（bucket x out of y）

select * from bucket_table tablesample(bucket 1 out of 3 on col1);

y必须是table总共bucket数的倍数或者因子。

上面的语句表示：对于分桶数为 6 的表，总共抽取 6/y = 6/3 = 2 个bucket的数据，

分别为第 x=1 个 bucket 和第 x+3=4 个 bucket 的数据。

小结

本文简单介绍了 hive 的分区，包括如何创建分区表、新建分区和删除分区，还有二级分区和动态分区；以及分桶表，包括分桶表的概念和抽样函数。

持续关注不迷路，转载请注明出处！ —— 大数据的奇妙冒险

hive从入门到放弃(四)——分区与分桶的更多相关文章

hive从入门到放弃(二)——DDL数据定义
前一篇文章,介绍了什么是 hive,以及 hive 的架构.数据类型,没看的可以点击阅读:hive从入门到放弃(一)--初识hive 今天讲一下 hive 的 DDL 数据定义创建数据库 CREAT ...
hive从入门到放弃(三)——DML数据操作
上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言. 没看过的可以点击跳转阅读: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--D ...
hive从入门到放弃(一)——初识hive
之前更完了<Kafka从入门到放弃>系列文章,本人决定开新坑--hive从入门到放弃,今天先认识一下hive. 没看过 Kafka 系列的朋友可以点此传送阅读: <Kafka从入门到 ...
HIVE—索引、分区和分桶的区别
一.索引简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapRed ...
hive -- 分区，分桶(创建，修改，删除)
hive -- 分区,分桶(创建,修改,删除) 分区: 静态创建分区: 1. 数据: john doe 10000.0 mary smith 8000.0 todd jones 7000.0 boss ...
Hive动态分区和分桶（八）
Hive动态分区和分桶 1.Hive动态分区 1.hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在 ...
Hive 教程(四)-分区表与分桶表
在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念分区表在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹 ...
【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样
分区表: 建表语句中添加:partitioned by (col1 string, col2 string) create table emp_pt(id int, name string, job ...
Hive里的分区、分桶、视图和索引再谈
福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...

随机推荐

LeetCode-047-全排列 II
全排列 II 题目描述:给定一个可包含重复数字的序列 nums ,按任意顺序返回所有不重复的全排列. 示例说明请见LeetCode官网. 来源:力扣(LeetCode) 链接:https://lee ...
GoLang设计模式21 - 装饰模式
装饰器模式是一种结构型设计模式.通过装饰器模式可以为一个对象添加额外的功能而不需对其作出调整. 还是通过具体的案例来了解装饰器模式:假设我们开了一家披萨店,现在店里主营两款披萨: 素食狂披萨(Vegg ...
PHP Curl Accept-Encoding: gzip乱码问题解决
在使用php curl对接hugegraph的过程中,发现向gremlin发送结果返回乱码,截图如下: 发现返回乱码的乱码请求中有Accept-Encoding: gzip,即返回的内容采用了gzip ...
java面试：java基础、Io、容器
1.java基础 1.JDK 和JRE有什么区别 JDK:java开发工具包,java开发运行环境.包含了JRE. JRE:java运行环境,包含java虚拟机,java基础类库. 2.jav ...
'javac' 不是内部或外部命令，也不是可运行的程序或批处理文件
记录在配置环境变量中被 Path 环境坑的一次前提:保证自己电脑中jdk环境配置都没有问题,即JAVA_HOME.Path.CLASSPATH均配置成功. 在这里我就不操作如何配置环境变量了,百度上面 ...
ArcGIS温泉数据聚类分析、核密度分析
这期博主给大家介绍下ArcGIS中的Riple's K 函数.与Kernel核密度分析. 首先从百度获取了湖南省的温泉数据.如图: 湖南省温泉数据 1.数据处理 (1)复制粘贴x.y坐标. (2)用快 ...
nexus3上传第三方jar包
1.新建第三方仓库,名字叫3rd_part 2.添加到maven-public组中 3.修改maven的setting.xml 4.执行命令 mvn deploy:deploy-file -Dgrou ...
python3生成一个含有20个随机数的列表，要求所有元素不相同，并且每个元素的值介于1到100之间
import random alist = random.sample(range(1,101),20) #random.sample()生成不相同的随机数 print(alist)
Python之VSCode
在学习Python的过程中,一直没有找到比较趁手的第三方编辑器,用的最多的还是Python自带的编辑器.由于本人用惯了宇宙第一IDE(Visual Studio),所以当Visual Studio C ...
Git 、运算符一 JAVA day10
不知不觉已是第十天学习,学习时时间往往过的很快.废话不多说进入正题: 今天开始学习JAVA中的运算符一.基本运算符 +,-,*,/.%:加.减.乘.除,余数下面用IDEA来举例说明基本运算符 p ...

hive从入门到放弃(四)——分区与分桶

分区