HQL之动态分区调整

动态分区插入可以基于查询语句分出出要插入的分区名称。比如，下面向分区表插入数据的SQL：

insert into table chavin.emp_pat partition(dname,loc)

select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc

from dept d join emp e on d.deptno=e.deptno;

hive会根据select字段的最后两个字段确定分区字段的值（上面sql中即根据d.dname,d.loc的值确定partition(dname,loc)中dname和loc的值），分区字段值的确定是根据位置而不是根据内容确定的，这点尤其需要注意。当然，对于多分区表的插入，可以混合使用静态分区和动态分区的方法，并且静态分区字段必须出现在动态分区字段之前，如下：

insert into table chavin.emp_pat partition(dname=' NEW YORK',loc)

select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc

from dept d join emp e on d.deptno=e.deptno

where d.dname=' NEW YORK';

针对于hive 0.13.1版本，动态分区插入默认是开启的，但是默认是以strict模式执行。在strict模式下，要求至少有一个分区字段是静态分区字段。

hive动态分区插入的一些属性如下：

hive (chavin)> set hive.exec.dynamic.partition;

hive.exec.dynamic.partition=true

--true表示开启动态分区插入功能。

hive (chavin)> set hive.exec.dynamic.partition.mode;

hive.exec.dynamic.partition.mode=strict

--设置为nonstrict模式，表示所有分区都可以是动态分区字段。

hive (chavin)> set hive.exec.max.dynamic.partitions.pernode;

hive.exec.max.dynamic.partitions.pernode=100

--每个mapper或reduce任务可以创建的最大分区数，如果mapper或reduce任务创建了比这个值大的分区数，则抛出致命错误。

hive (chavin)> set hive.exec.max.dynamic.partitions;

hive.exec.max.dynamic.partitions=1000

--一个动态分区创建语句可以创建的最大动态分区数，如果创建数量超过这个值，则抛出致命错误。

hive (chavin)> set hive.exec.max.created.files;

hive.exec.max.created.files=100000

--全局可以创建的最大文件个数，有一个全局hadoop计数器会跟踪记录创建的文件数，如果超过了限制值则抛出致命错误信息。

hive (chavin)> set dfs.datanode.max.xcievers;

dfs.datanode.max.xcievers=4096

--datanode参数，配置在hdfs-site.xml中，表示一次可以打开的最大文件个数。

如下是动态分区插入的一个小例子：

1）创建分区表：

create table chavin.EMP_pat

(

EMPNO int,

ENAME string,

JOB string,

MGR int,

HIREDATE string,

SAL float,

COMM float,

DEPTNO int

) partitioned by(dname string,loc string)

row format delimited fields terminated by '\t';

2）设置动态分区参数，向分区表插入数据：

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.exec.max.dynamic.partitions.pernode=100;

insert into table chavin.emp_pat partition(dname,loc)

select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc

from dept d join emp e on d.deptno=e.deptno;

HQL之动态分区调整的更多相关文章

第4节 hive调优：动态分区调整问题
执行如下截图中的语句时卡住了: 原因:yarn未启动,hive底层是要提交mapreduce到yarn上才能计算结果的. 之前启动yarn时,未执行jps查看是否已经启动.其实未启动成功: [root ...
Hive动态分区详解
目录动态分区调整注意动态分区插入动静分区结合例子动态分区调整动态分区属性:设置为true表示开启动态分区功能(默认为false)hive.exec.dynamic.partition=t ...
Hive学习之动态分区及HQL
Hive动态分区 1.首先创建一个分区表create table t10(name string) partitioned by(dt string,value string)row format d ...
sqoop导oracle数据到hive中并动态分区
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, pag ...
Hive Experiment 2（表动态分区和IDE）
1.使用oracle sql developer 4.0.3作为hive query的IDE. 下载hive-jdbc driver http://www.cloudera.com/content/c ...
日志案例分析（PV，UV），以及动态分区
1.实现的流程需求分析时间:日,时段分区表:两级 PV UV 数据清洗 2015-08-28 18:19:10 字段:id,url,guid,tracktime 数据分析导出 2.新建源数据库 ...
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法.分区的好处在于缩小查询扫描范围,从而提高速度.分区分为两种:静态分区static partition和动态分区dynamic partition.静态分区和动态分区 ...
Hive分区（静态分区+动态分区）
Hive分区的概念与传统关系型数据库分区不同. 传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区. Hive的分区方式:由于Hive实 ...
hive:默认允许动态分区个数为100，超出抛出异常：
在创建好一个分区表后,执行动态分区插入数据,抛出了错误: Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Erro ...

随机推荐

【Python】将python3.6软件的py文件打包成exe程序
下载pyinstaller pyinstaller 改变图标 pyinstaller -F --icon=my.ico xxx.py 采用命令行操作的办法在cmd命令行中,输入代码: 首先,前往Py ...
CentOS7安装RabbitMQ
1.先安装Erlang rpm -Uvh http://www.rabbitmq.com/releases/erlang/erlang-18.1-1.el7.centos.x86_64.rpm 2.安 ...
教你一招：解决Windows 开机弹出AotuIt ERROR 错误
AutoIt是个脚本语言,常被用于自动化安装.网络上有些系统镜像里含有AutoIt脚本,用于系统的自动配置.出现这种问题往往有两种可能的原因: 1)做系统的时候没搞好.这种情况就需要换一个镜像文件. ...
BigDecimal提供了8种舍入方式
BigDecimal提供了8种舍入方式 1.ROUND_UP:舍入远离零的舍入模式.在丢弃非零部分之前始终增加数字(始终对非零舍弃部分前面的数字加1).注意,此舍入模式始终不会减少计算值的大小. 2. ...
java.lang.NoSuchFieldError: No static field abc_ic_ab_back_mtrl_am_alpha of type I in class Landroid/support/v7/appcompat/R$drawable
出现java.lang.NoSuchFieldError: No static field abc_ic_ab_back_mtrl_am_alpha of type I in class Landro ...
Python之保存和读取字典
import pickle def save_obj(obj, name ): with open('obj/'+ name + '.pkl', 'wb') as f: pickle.dump(obj ...
Windowsclient SSH 远程连接Windowsserver(PowerShell Server)
近期刚搞完SSH框架.又来研究研究SSH远程连接.为什么这么要弄这个呢?由于如今我如今开发主要在自己的笔记本(windows)上,然后写的后端都要部署到实验室的台式机(windows)上,这样一来,我 ...
08策略模式Strategy
一.什么是策略模式 Strategy模式也叫策略模式是行为模式之一, 它对一系列的算法加以封装,为所有算法定义一个抽象的算法接口,并通过继承该抽象算法接口对所有的算法加以封装和实现,具体的算法选择 ...
我的Mac Pro coding环境配置
新装了OS X 10.11.1. 记录一下开发用得到的一些玩意,方便下次再次配置. homebrew国内源:http://mirrors.tuna.tsinghua.edu.cn/help/#home ...
Sysfs文件系统接口调试
首先需要初始化操作: s32 gtp_sysfs_init(void) { s32 ret ; debug_kobj = kobject_create_and_add("gtp", ...

HQL之动态分区调整

HQL之动态分区调整的更多相关文章

随机推荐

热门专题