Hive的静态分区和动态分区

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处

虽然之前已经用过很多次hive的分区表，但是还是找时间快速回顾总结一下加深理解.

举个栗子，基本需求就是Hive有一张非常详细的原子数据表original_device_open，而且还在不断随着时间增长，那么我需要给它进行分区，为什么要分区?因为我想缩小查询范围，提高速度和性能.

分区其实是物理上对hdfs不同目录进行数据的load操作，0.7之后的版本都会自动创建不存在的hdfs的目录，不同的目录对应不同的分区字段，当然会有一个处于最顶层的主分区字段.

我这里的分区字段主要是时间，分为年，月，日，时

首先建立一个新的分区表（这里我不在原始数据表直接操作)

CREATE TABLE device_open (

deviceid varchar(50),

...

)

PARTITIONED BY (year varchar(50),month varchar(50),day varchar(50),hour varchar(50))

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

然后我要从原始表中select数据插入到新建的分区表中去，如下采用动态插入(…代表省略的字段)

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table device_open partition(year,month,day,hour)

select

...,

original_device_open.year as year,

original_device_open.month as month,

original_device_open.day as day,

original_device_open.hour as hour

FROM original_device_open

简单解释下

set hive.exec.dynamic.partition=true; 是开启动态分区

set hive.exec.dynamic.partition.mode=nonstrict; 这个属性默认值是strict,就是要求分区字段必须有一个是静态的分区值，随后会讲到，当前设置为nonstrict,那么可以全部动态分区

其他相关属性见下表

注意代码中标红的部分，partition(year,month,day,hour) 就是要动态插入的分区.

代码执行后一直卡在map百分比90%处，然后重试了都失败，查看后发现如下日志

Fatal error occurred when node tried to create too many dynamic partitions.

很明显的错误，太多动态分区了，因为 hive.exec.max.dynamic.partitions默认值是1000，而我这里的分区我确定肯定超过这个值了，那么修改如下

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

SET hive.exec.max.dynamic.partitions=100000;

SET hive.exec.max.dynamic.partitions.pernode=100000;

重新执行insert分区代码，插入成功.

当然，对于大批量数据的插入分区，动态分区相当方便，对于小批量的分区插入，比如想定时每天执行某个时间段的分区数据插入，那也很简单，如下代码

insert overwrite table device_open partition(year='2017',month='05',day,hour)

select

...,

original_device_open.day as day,

original_device_open.hour as hour

FROM original_device_open where original_device_open.year='2017' and original_device_open.month='05'

注意 partition(year='2017',month='05',day,hour)

我只需要指明需要静态分区的字段值就可以.剩下的字段就属于动态分区了,这里指将2017年5月份的数据插入分区表,对应底层的物理操作就是讲2017年5月份的数据load到

hdfs上对应2017年5月份下的所有day和hour目录中去.

Hive的静态分区和动态分区的更多相关文章

Hive中静态分区和动态分区总结
目录背景第一部分静态分区第二部分动态分区第三部分两者的比较第四部分动态分区使用的问题参考文献及资料背景在Hive中有两种类型的分区:静态分区(Static Partitioni ...
什么是hive的静态分区和动态分区，它们又有什么区别呢？hive动态分区详解
面试官问我,什么是hive的静态分区和动态分区,这题我会呀. 简述分区是hive存放数据的一种方式,将列值作为目录来存放数据,就是一个分区,可以有多列. 这样查询时使用分区列进行过滤,只需根据列值直 ...
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法.分区的好处在于缩小查询扫描范围,从而提高速度.分区分为两种:静态分区static partition和动态分区dynamic partition.静态分区和动态分区 ...
【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样
分区表: 建表语句中添加:partitioned by (col1 string, col2 string) create table emp_pt(id int, name string, job ...
hive SQL 静态分区和动态分区
Hive 分区介绍: hive中简单介绍分区表(partition table),含动态分区(dynamic partition)与静态分区(static partition) hive中创建分区表没 ...
Hive静态分区和动态分区
一.静态分区 1.创建分区表 hive (default)> create table order_mulit_partition( > order_number string, > ...
Hive静态分区和动态分区,对应Mysql中的元数据信息
静态分区: 手动指定分区加载数据,就是常说的静态分区的使用.但是在日常工作中用的比较多的是动态分区. 创建: hive> create table order_mulit_partition( ...
Hive Experiment 2（表动态分区和IDE）
1.使用oracle sql developer 4.0.3作为hive query的IDE. 下载hive-jdbc driver http://www.cloudera.com/content/c ...
hive学习(六) 参数和动态分区
1.hive 参数.变量 1.1hive的命名空间: hive当中的参数.变量,都是以命名空间开头

随机推荐

自己制作一个链表用来存储列表信息，并查找当前id信息，找上一条信息，下一条信息(信息浏览的时候方便使用)
偶然看到某些网站在新闻详情中 ,往往是需要根据当前信息id获取到上一条信息和下一条信息的,而通常我们的做法是先获取当前信息,再获取上一条信息,再获取下一条信息,就需要发送三次查询才能够得到这些信息,一 ...
Java中的常用方法
Java中的常用方法第一章字符串 1.获取字符串的长度:length() 2.判断字符串的前缀或后缀与已知字符串是否相同前缀 startsWith(String s).后缀 endsWit ...
Python全栈day14-15-16-17（函数）
一,数学定义的函数函数的定义:给定一个数集A,对A施加对应法则f,记作f(A),得到另一数集B,也就是B=f(A).那么这个关系式就叫函数关系式,简称函数.函数概念含有三个要素:定义域A.值域C和对 ...
centos 7.5 最小化安装
参考:https://www.tecmint.com/centos-7-installation/ ================================================== ...
python基础-第六篇-6.2模块
python之强大,就是因为它其提供的模块全面,模块的知识点不仅多,而且零散---一个字!错综复杂没办法,二八原则抓重点咯!只要抓住那些以后常用开发的方法就可以了,哪些是常用的?往下看--找答案~ ...
nsq里面WaitGroups两种实用的用法
看过好几遍了,觉得挺实用的,记录备忘一下. 1.开启很多个 goroutine 之后,等待执行完毕 type WaitGroupWrapper struct { sync.WaitGroup } fu ...
用rm递归递归删除子目录下所有.o后缀文件
find . -name "*.o" | xargs rm -f 可以通过管道命令来操作,先find出主目录下想删除的文件,然后通过“xargs”这个构造参数列表并运行命令 ...
jquery prop attr
checked比较特殊,只要设置了属性checked,不管何值都是checked的.例如:<input type="checkbox" checked><inpu ...
maven之jre默认配置
需要在用户或者全局settings.xml中做如下配置例:用户配置: 添加代码: <profile> <id>jdk-1.8</id> <activatio ...
mysql 约束条件 auto_increment 自动增长清空表自动增长情况
清空表情况: mysql> delete from t20; Query OK, rows affected (0.00 sec) mysql> show create table t20 ...

Hive的静态分区和动态分区

Hive的静态分区和动态分区的更多相关文章

随机推荐

热门专题