hive学习笔记之四：分区表

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

《hive学习笔记》系列导航

本篇概览

本文是《hive学习笔记》系列的第四篇，要学习的是hive的分区表，简单来说hive的分区就是创建层级目录的一种方式，处于同一分区的记录其实就是数据在同一个子目录下，分区一共有两种：静态和动态，接下来逐一尝试；

静态分区（单字段分区）

先尝试用单个字段分区，t9表有三个字段：名称city、年龄age、城市city，以城市作为分区字段：

建表：

create table t9 (name string, age int)

partitioned by (city string)

row format delimited

fields terminated by ',';

查看：

hive> desc t9;

OK

name                	string

age                 	int

city                	string              	                    

# Partition Information

# col_name            	data_type           	comment             

city                	string

Time taken: 0.159 seconds, Fetched: 8 row(s)

创建名为009.txt的文本文件，内容如下，可见每行只有name和age两个字段，用来分区的city字段不在这里设置，而是在执行导入命令的时候设置，稍后就会见到：

tom,11

jerry,12

导入数据的命令如下，可见导入命令中制定了city字段，也就是说一次导入的所有数据，city字段值都是同一个：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t9

partition(city='shenzhen');

再执行一次导入操作，命令如下，city的值从前面的shenzhen改为guangzhou：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t9

partition(city='guangzhou');

查询数据，可见一共四条数据，city共有两个值：

hive> select * from t9;

OK

t9.name	t9.age	t9.city

tom	11	guangzhou

jerry	12	guangzhou

tom	11	shenzhen

jerry	12	shenzhen

Time taken: 0.104 seconds, Fetched: 4 row(s)

前面曾提到分区实际上是不同的子目录，来看一下是不是如此，如下图，红框是t9的文件目录，下面有两个子目录city=guangzhou和city=shenzhen：

查看子目录里面文件的内容，可见每条记录只有name和age两个字段：

[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t9/city=guangzhou

Found 1 items

-rwxr-xr-x   3 hadoop supergroup         16 2020-10-31 16:47 /user/hive/warehouse/t9/city=guangzhou/009.txt

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t9/city=guangzhou/009.txt

tom,11

jerry,12

[hadoop@node0 bin]$

以上就是以单个字段做静态分区的实践，接下来尝试多字段分区；

静态分区（多字段分区）

新建名为t10的表，有两个分区字段：province和city，建表语句：

create table t10 (name string, age int)

partitioned by (province string, city string)

row format delimited

fields terminated by ',';

上述建表语句中，分区字段province写在了city前面，这就意味着第一级子目录是province值，每个province子目录，再按照city值建立二级子目录，图示如下：

3. 第一次导入，province='shanxi', city='xian'：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t10

partition(province='shanxi', city='xian');

第二次导入，province='shanxi', city='xian'：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t10

partition(province='shanxi', city='hanzhong');

第三次导入，province='guangdong', city='guangzhou'：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t10

partition(province='guangdong', city='guangzhou');

第四次导入，province='guangdong', city='shenzhen'：

load data

local inpath '/home/hadoop/temp/202010/25/009.txt'

into table t10

partition(province='guangdong', city='shenzhen');

全部数据如下：

hive> select * from t10;

OK

t10.name	t10.age	t10.province	t10.city

tom	11	guangdong	guangzhou

jerry	12	guangdong	guangzhou

tom	11	guangdong	shenzhen

jerry	12	guangdong	shenzhen

tom	11	shanxi	hanzhong

jerry	12	shanxi	hanzhong

tom	11	shanxi	xian

jerry	12	shanxi	xian

Time taken: 0.129 seconds, Fetched: 8 row(s)

查看hdfs文件夹，如下图，一级目录是province字段的值：

打开一个一级目录，如下图，可见二级目录是city的值：

10. 查看数据：

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t10/province=shanxi/city=hanzhong/009.txt

tom,11

jerry,12

以上就是静态分区的基本操作，可见静态分区有个不便之处：新增数据的时候要针对每一个分区单独使用load命令去操作，这时候使用动态分区来解决这个麻烦；

动态分区

动态分区的特点就是不用指定分区目录，由hive自己选择；
执行以下命令开启动态分区功能：

set hive.exec.dynamic.partition=true

名为hive.exec.dynamic.partition.mode的属性，默认值是strict，意思是不允许分区列全部是动态的，这里改为nostrict以取消此禁制，允许全部分区都是动态分区：

set hive.exec.dynamic.partition.mode=nostrict;

建一个外部表，名为t11，只有四个字段：

create external table t11 (name string, age int, province string, city string)

row format delimited

fields terminated by ','

location '/data/external_t11';

创建名为011.txt的文件，内容如下：

tom,11,guangdong,guangzhou

jerry,12,guangdong,shenzhen

tony,13,shanxi,xian

john,14,shanxi,hanzhong

将011.txt中的四条记录载入表t11：

load data

local inpath '/home/hadoop/temp/202010/25/011.txt'

into table t11;

接下来要，先创建动态分区表t12，再把t11表的数据添加到t12中；
t12的建表语句如下，按照province+city分区：

create table t12 (name string, age int)

partitioned by (province string, city string)

row format delimited

fields terminated by ',';

执行以下操作，即可将t11的所有数据写入动态分区表t12，注意，要用overwrite：

insert overwrite table t12

partition(province, city)

select name, age, province, city from t11;

通过hdfs查看文件夹，可见一级和二级子目录都符合预期：

11. 最后检查二级子目录下的数据文件，可以看到该分区下的记录：

[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t12/province=guangdong/city=guangzhou/000000_0

tom,11

至此，分区表的学习就完成了，希望能给您一些参考；

你不孤单，欣宸原创一路相伴

欢迎关注公众号：程序员欣宸

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...

https://github.com/zq2599/blog_demos

hive学习笔记之四：分区表的更多相关文章

hive学习笔记之一：基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之三：内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之五：分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之六：HiveQL基础
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之七：内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之九：基础UDF
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Oracle学习笔记之四sp1，Oracle 11g的常用函数
从Oracle学习笔记之四,SQL语言入门中摘出来的,独立成一章节 3.1 字符类函数 ASCII(c)和CHR(i) 分别用于返回一个字符的ASCII码和返回给定ASCII值所对应的字符. C ...
hive学习笔记之十：用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<hive学习笔记>的第十 ...
hive学习笔记之十一：UDTF
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

随机推荐

vue3.0API详解
Vue 3.0 于 2020-09-18 发布了,使用了 Typescript 进行了大规模的重构,带来了 Composition API RFC 版本,类似 React Hook 一样的写 Vue, ...
风变编程（Python自学笔记）第10关-工作量计算器
1.%f的意思是格式化字符串为浮点型,%.1f的意思是格式化字符串为浮点型,并保留1位小数. 2.向上取整:ceil() 使用ceil()方法时需要导入math模块,例如 1 >>> ...
Envoy ：V3APi 开启 TLS
方案架构本次实例与官方Envoy front_proxy Example相似,首先会有一个Envoy单独运行.ingress的工作是给其他地方提供一个入口.来自外部的传入连接请求到这里,前端代理将会 ...
联想RD350板载RAID110i，安装CentOS 7 不识别RAID设备
联想RD350板载RAID110i,安装CentOS 7 不识别RAID设备情况如题所述. 1. 确认BIOS中 Boot mode为[UEFI]或者[AUTO] 2. 确认BIOS中 Stor ...
linux下dmidecode命令获取硬件信息
linux下dmidecode命令获取硬件信息 2 A+ 所属分类:Linux 运维工具 dmidecode在 Linux 系统下获取有关硬件方面的信息.dmidecode 遵循 SMBIOS/DMI ...
STM32 串口接收大量数据导致死机
http://blog.csdn.net/origin333/article/details/49992383 以下文章出自上面的链接.感谢原创作者的分享. 在一项目中,使用STM32作为主控,程序运 ...
mysql mysqladmin常用命令
修改root密码 mysqladmin -u root -p123456 password 'YOURNEWPASSWORD' 检查mysql是否在运行 systemctl status mariad ...
IDEA 最实用快捷键【MAC版本】
目录 option + F7 Ctrl + B / Ctrl +鼠标左键(一键两用,可以无限循环的跳过来跳过去,我跳过去了,我又跳回去了) command + E (这个快捷键很有用,为什么我老是用不 ...
GO学习-(17) Go语言基础之反射
Go语言基础之反射本文介绍了Go语言反射的意义和基本使用. 变量的内在机制 Go语言中的变量是分为两部分的: 类型信息:预先定义好的元信息. 值信息:程序运行过程中可动态变化的. 反射介绍反射是指 ...
电脑华硕A455L系列，机械硬盘换成固态硬盘，光驱位改放机械硬盘
电脑一直以来都很卡,直到最近用的不舒服了,就去查查原因,发现是磁盘读取爆表!只好想起来换固态硬盘,光驱改放机械硬盘... 买的固态硬盘是个杂牌军,但是店家说工艺不错,只好将信将疑,用用再说吧. 首先确 ...