Hive分区(静态分区+动态分区)
Hive分区的概念与传统关系型数据库分区不同。
传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。
Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。
所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件。
Hive分区的创建
Hive分区是在创建表的时候用Partitioned by 关键字定义的,但要注意,Partitioned by子句中定义的列是表中正式的列,但是Hive下的数据文件中并不包含这些列,因为它们是目录名。
静态分区
创建一张静态分区表par_tab,单个分区
create table par_tab (name string,nation string) partitioned by (sex string) row format delimited fields terminated by ',';
这时候通过desc查看的表结构如下
hive> desc par_tab;
OK
name string
nation string
sex string # Partition Information
# col_name data_type comment sex string
Time taken: 0.038 seconds, Fetched: row(s)
准备本地数据文件par_tab.txt,内容 “名字/国籍”,将以性别(sex)作为分区
jan,china
mary,america
lilei,china
heyong,china
yiku,japan
emoji,japan
把数据插入到表(其实load操作相当于把文件移动到HDFS的Hive目录下)
load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab partition (sex='man');
这时候在hive下查询par_tab表,变成了3列,注意。
hive> select * from par_tab;
OK
jan china man
mary america man
lilei china man
heyong china man
yiku japan man
emoji japan man
Time taken: 0.076 seconds, Fetched: 6 row(s)
查看par_tab目录结构
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=man
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=man/par_tab.txt
可以看到,在新建分区表的时候,系统会在hive数据仓库默认路径/user/hive/warehouse/下创建一个目录(表名),再创建目录的子目录sex=man(分区名),最后在分区名下存放实际的数据文件。
如果再插入另一个数据文件数据,如文件
lily,china
nancy,china
hanmeimei,america
插入数据
load data local inpath '/home/hadoop/files/par_tab_wm.txt' into table par_tab partition (sex='woman');
查看par_tab表目录结构
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=man
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=man/par_tab.txt
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=woman
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_tab/sex=woman/par_tab_wm.txt
最后查看两次插入的结果,包含了man和woman
hive> select * from par_tab;
OK
jan china man
mary america man
lilei china man
heyong china man
yiku japan man
emoji japan man
lily china woman
nancy china woman
hanmeimei america woman
Time taken: 0.136 seconds, Fetched: row(s)
因为分区列是表实际定义的列,所以查询分区数据时
hive> select * from par_tab where sex='woman';
OK
lily china woman
nancy china woman
hanmeimei america woman
Time taken: 0.515 seconds, Fetched: row(s)
下面创建一张静态分区表par_tab_muilt,多个分区(性别+日期)
hive> create table par_tab_muilt (name string, nation string) partitioned by (sex string,dt string) row format delimited fields terminated by ',' ;
hive> load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab_muilt partition (sex='man',dt='2017-03-29'); [hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab_muilt
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_tab_muilt/sex=man
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_tab_muilt/sex=man/dt=--
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_tab_muilt/sex=man/dt=--/par_tab.txt
可见,新建表的时候定义的分区顺序,决定了文件目录顺序(谁是父目录谁是子目录),正因为有了这个层级关系,当我们查询所有man的时候,man以下的所有日期下的数据都会被查出来。如果只查询日期分区,但父目录sex=man和sex=woman都有该日期的数据,那么Hive会对输入路径进行修剪,从而只扫描日期分区,性别分区不作过滤(即查询结果包含了所有性别)。
动态分区
如果用上述的静态分区,插入的时候必须首先要知道有什么分区类型,而且每个分区写一个load data,太烦人。使用动态分区可解决以上问题,其可以根据查询得到的数据动态分配到分区里。其实动态分区与静态分区区别就是不指定分区目录,由系统自己选择。
首先,启动动态分区功能
hive> set hive.exec.dynamic.partition=true;
假设已有一张表par_tab,前两列是名称name和国籍nation,后两列是分区列,性别sex和日期dt,数据如下
hive> select * from par_tab;
OK
lily china man --
nancy china man --
hanmeimei america man --
jan china man --
mary america man --
lilei china man --
heyong china man --
yiku japan man --
emoji japan man --
Time taken: 1.141 seconds, Fetched: row(s)
现在我把这张表的内容直接插入到另一张表par_dnm中,并实现sex为静态分区,dt动态分区(不指定到底是哪日,让系统自己分配决定)
hive> insert overwrite table par_dnm partition(sex='man',dt)
> select name, nation, dt from par_tab;
插入后看下目录结构
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_dnm/sex=man
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_dnm/sex=man/dt=--
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_dnm/sex=man/dt=--/000000_0
drwxr-xr-x - hadoop supergroup -- : /user/hive/warehouse/par_dnm/sex=man/dt=--
-rwxr-xr-x hadoop supergroup -- : /user/hive/warehouse/par_dnm/sex=man/dt=--/000000_0
再查看分区数
hive> show partitions par_dnm;
OK
sex=man/dt=--
sex=man/dt=--
Time taken: 0.065 seconds, Fetched: row(s)
证明动态分区成功。
注意,动态分区不允许主分区采用动态列而副分区采用静态列,这样将导致所有的主分区都要创建副分区静态列所定义的分区。
动态分区可以允许所有的分区列都是动态分区列,但是要首先设置一个参数hive.exec.dynamic.partition.mode :
hive> set hive.exec.dynamic.partition.mode;
hive.exec.dynamic.partition.mode=strict
它的默认值是strick,即不允许分区列全部是动态的,这是为了防止用户有可能原意是只在子分区内进行动态建分区,但是由于疏忽忘记为主分区列指定值了,这将导致一个dml语句在短时间内创建大量的新的分区(对应大量新的文件夹),对系统性能带来影响。
所以我们要设置:
hive> set hive.exec.dynamic.partition.mode=nostrick;
如有错漏,请通知改正。
Hive分区(静态分区+动态分区)的更多相关文章
- hive使用动态分区时如果动态分区的字段存在空值的问题
hive的数据是放到hdfs中,当我们的分区字段类型为string时,如果使用动态分区向表中插入数据,而动态分区的那个字段恰好为null或者空字符串,这样hive会为其选一个默认的分区,我们查数据时分 ...
- 第4节 hive调优:动态分区调整问题
执行如下截图中的语句时卡住了: 原因:yarn未启动,hive底层是要提交mapreduce到yarn上才能计算结果的. 之前启动yarn时,未执行jps查看是否已经启动.其实未启动成功: [root ...
- hive中简单介绍分区表(partition table)——动态分区(dynamic partition)、静态分区(static partition)
一.基本概念 hive中分区表分为:范围分区.列表分区.hash分区.混合分区等. 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列.翻译一下是:“在表的数据文件中实际上并不保存分区列的信 ...
- Hive中静态分区和动态分区总结
目录 背景 第一部分 静态分区 第二部分 动态分区 第三部分 两者的比较 第四部分 动态分区使用的问题 参考文献及资料 背景 在Hive中有两种类型的分区:静态分区(Static Partitioni ...
- 什么是hive的静态分区和动态分区,它们又有什么区别呢?hive动态分区详解
面试官问我,什么是hive的静态分区和动态分区,这题我会呀. 简述 分区是hive存放数据的一种方式,将列值作为目录来存放数据,就是一个分区,可以有多列. 这样查询时使用分区列进行过滤,只需根据列值直 ...
- hive动态分区和混合分区
各位看官,今天我们来讨论下再Hive中的动态分区和混合分区方面的一些知识点以及相关的一些问题. 前面我们已经讲过管理表和外部表的一般分区的一些知识点,对于需要对表创建很多的分区,那么用户就需要些很多的 ...
- hive 动态分区与混合分区
hive的分区概念,相信大家都非常了解了.通过将数据放在hdfs不同的文件目录下,查表时,只扫描对应分区下的数据,避免了全表扫描. 提升了查询效率. 关于hive分区,我们还会用到多级分区.动态分区. ...
- hive 动态分区
非常重要的动态分区属性: hive.exec.dynamic.partition 是否启动动态分区.false(不开启) true(开启)默认是 false hive.exec.dynamic.pa ...
- Hive动态分区详解
目录 动态分区调整 注意 动态分区插入 动静分区结合 例子 动态分区调整 动态分区属性:设置为true表示开启动态分区功能(默认为false)hive.exec.dynamic.partition=t ...
随机推荐
- Android 学习笔记1
参考:http://blog.csdn.net/ztp800201/article/details/7265414 为了快速引入后面的内容就直接使用了这种办法来实现功能,后期再改进: /* ***** ...
- ZooKeeper 学习笔记
ZooKeeper学习笔记 1. zookeeper基本概念 zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是hadoop和Habase的重要组件,是为分布式应用提供一致性服 ...
- My97DatePicker.js 之无效日期设置
1.下载并引用My97DatePicker.js 2.将工作日休假的和周末上班的维护到数据库中 3.取出某段时间内的不上班日期集合 /// <summary> ///获取 无效日期集合 1 ...
- node将excel内容转json
小颖分享的这个方法,前提是你已经安装了node,如果大家不知道自己是否安装过node可以打开cmd,然后执行:node -v,如果安装过,你会看到你安装的node版本号,如果没有安装请先安装node. ...
- C# 数据类型 数据转换 自己的见解和方式
数据类型分为:基本数据类和引用类型, 基本数据类型又分为整型,浮点型,字符型,布尔型. 引用类型又分为:字符串型,日期时间,枚举类型,结构类型. int long float = 10.5f; dou ...
- Vim进阶命令
1. 查找 /xxx(?xxx) 表示在整篇文档中搜索匹配xxx的字符串, / 表示向下查找, ? 表示 向上查找.其中xxx可以是正规表达式, ...
- [Usaco2014 Open Gold ]Cow Optics (树状数组+扫描线/函数式线段树)
这道题一上手就知道怎么做了= = 直接求出原光路和从目标点出发的光路,求这些光路的交点就行了 然后用树状数组+扫描线或函数式线段树就能过了= = 大量的离散+模拟+二分什么的特别恶心,考试的时候是想到 ...
- [Hadoop] - Protocol Buffer安装
Hadoop从2.x版本开始,底层的RPC远程调用使用ProtocolBuffer格式来传递数据,所以在编译Hadoop的过程中有可能出现提示缺少Protocol服务的异常信息,类似:'protoc ...
- 【PHP系列】PHP推荐标准之PSR-3,日志记录器接口
上节聊完了PHP官方的相关代码规范,下面给大家带来了PHP系列的PHP推荐标准的另外两个,PSR-3,PSR-4. 首先,我们先来了解下PSR-3是怎么回事. PHP-FIG发布的第三个推荐规范与前两 ...
- 来自高维的对抗 - 逆向TinyTool自制
一.序 无论是逆向分析还是漏洞利用,我所理解的攻防博弈无非是二者在既定的某一阶段,以高维的方式进行对抗,并不断地升级维度.比如,逆向工程人员一般会选择在Root的环境下对App进行调试分析,其是以ro ...