Hive设置变量

hive --define --hivevar --hiveconf

set

1、hivevar命名空间

用户自定义变量

hive -d name=zhangsan
hive --define name=zhangsan
hive -d a=1 -d b=2

效果跟hivevar是一样的

hive --hivevar a=1 --hivevar b=2

引用hivevar命名空间的变量时，变量名前面可以加hivevar:也可以不加

set name;
set name=zhangsan;
set hivevar:name;
set hivevar:name=zhangsan;

在代码中使用${}引用，变量名前面可以加hivevar:也可以不加

create table ${a} ($(b) int);

2、hiveconf命名空间

hive的配置参数，覆盖hive-site.xml（hive-default.xml）中的参数值

hive --hiveconf hive.cli.print.current.db=true --hiveconf hive.cli.print.header=true

hive --hiveconf hive.root.logger=INFO,console

hive --hiveconf hive.metastore.warehouse.dir=/hive/$USER

引用hiveconf命名空间的变量时，变量名前面可以加hiveconf:也可以不加

set hive.cli.print.header;
set hive.cli.print.header=false;

3、sytem命名空间

JVM的参数，不能通过hive设置，只能读取

引用时，前面必须加system:

set sytem:user.name;

create table ${system:user.name} (a int);

4、env命名空间

shell环境变量，引用时必须加env:

set env:USER;
set env:HADOOP_HOME;

create table ${env:USER} (${env:USER} string);

附录：常用的设置

在会话里输出日志信息

hive --hiveconf hive.root.logger=DEBUG,console

也可以修改$HIVE_HOME/conf/hive-log4j.properties的hive.root.logger属性，但是用set命令是不行的。

显示当前数据库

set hive.cli.print.current.db=true;

显示列名称

set hive.cli.print.header=true;

向桶表中插入数据前，需要启用桶

create table t1 (id int) clustered by (id) into 4 buckets;
set hive.enforce.bucketing=true;
insert into table t1 select * from t2;

向桶表insert数据时，hive自动根据桶表的桶数设置reduce的个数。否则需要手动设置reduce的个数：set mapreduce.job.reduces=N（桶表定义的桶数）或者mapred.reduce.tasks，然后在select语句后加clustered by

动态分区相关

set hive.exec.dynamic.partition=true #开启动态分区
set hive.exec.dynamic.partition.mode=nostrict #动态分区模式：strict至少要有个静态分区，nostrict不限制
set hive.exec.max.dynamic.partitions.pernode=100 #每个mapper节点最多创建100个分区
set hive.exec.max.dynamic.partitions=1000 #总共可以创建的分区数

from t insert overwrite table p partition(country, dt) select ... cuntry, dt

上面的查询在执行过程中，单个map里的数量不受控制，可能会超过hive.exec.max.dynamic.partition.pernode配置的数量，可以通过对分区字段分区解决，上面的sql改成：

from t insert overwrite table p partition(country, dt) select ... cuntry, dt distributed by country, dt;

hive操作的执行模式

set hive.mapred.mode=strict

strict：不执行有风险（巨大的mapreduce任务）的操作，比如：笛卡尔积、没有指定分区的查询、bigint和string比较、bigint和double比较、没有limit的orderby

nostrict：不限制

压缩mapreduce中间数据

set hive.exec.compress.intermediate=true;

setmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec; #设置中间数据的压缩算法，默认是org.apache.hadoop.io.compress.DefaultCodec

压缩mapreduce输出结果

set hive.exec.compress.output=true;

set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec #设置输出数据的压缩算法，使用GZip可以获得更好的压缩率，但对mapreduce而言是不可分隔的

set mapreduce.output.fileoutputformat.compress.type=BLOCK; #如果输出的是SequenceFile，则使用块级压缩

启用对分区归档

set hive.archive.enabled=true;

来自为知笔记(Wiz)

Hive设置变量的更多相关文章

hive 传递变量的两种方式
在使用hive开发数据分析代码时,经常会遇到需要改变运行参数的情况,比如select语句中对日期字段值的设定,可能不同时间想要看不同日期的数据,这就需要能动态改变日期的值.如果开发量较大.参数多的话, ...
Hive中变量的使用
1.Hive配置属性 (1)命令行方式 Hive配置属性存储于 hiveconf 命名空间中,该命名空间中的属性是可读写的.在查询语句中插入 '${hiveconf:变量名}',就可以通过 hive ...
Hive设置配置参数的方法，列举8个常用配置
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1).修改${HIVE_HOME}/conf/hive-site.xml配置文件: (2).命令行参数: (3).在已经 ...
Kettle_设置变量的两种方法
一个复杂的kettle作业一般包括很多子作业和转换,在主作业Start后通常会添加一个[设置变量]的流程,该流程的功能是为所有流程的公共变量设置通用值. 主作业添加的[设置变量]针对的是所 ...
postman提取接口的返回值及动态设置变量（一）
一.提取接口返回值 1.当返回值是返回JSON时 let json = JSON.parse(responseBody); // responseBody是包含整个返回内容的字符串 let foo ...
postman—环境切换和设置变量
postman提供了environment管理功能,想要在多个环境中测试,比如在测试环境.灰度环境.生产环境等,只需要用同样的接口,切换下环境即可,非常方便.具体步骤: 一.切换环境 1.点击界面右上 ...
KETTLE设置变量
一.kettle变量类型 kettle变量分为: 1.环境变量通过 set variables组件设置变量,范围可以是:JVM变量.作业变量.父作业变量.根作业变量.使用时通过${var}或 %%v ...
linux 服务注册 service文件在service文件中设置变量和环境变量
[Unit] Description= #服务描述 After=syslog.target #服务启动依赖 [Service] Type=forking #服务启动类型可 ...
kettle 设置变量
以下只是本人在使用过程中一些经验,可能有误解不对的地方,希望大家指正. 这个控件可以在job中调用,也可以在transformation中使用.下面将分别说明在两个不同任务中调用时的使用方法和需要注意 ...

随机推荐

js04
接着看一些js的基础,这里主要说一下js的对象. 1.对象: js中的所有事物都可以看作是对象:字符串.数值.数组.函数... 内建对象:String Date Array ...
IP等级
IP是Ingress Protection的缩写,IP等级是针对电气设备外壳对异物侵入的防护等级,来源是国际电工委员会的标准IEC 60529,这个标准在2004年也被采用为美国国家标准. 在这个标 ...
剑指offer六十一之序列化二叉树（待补充）
一.题目请实现两个函数,分别用来序列化和反序列化二叉树二.思路三.代码 --------------------------------------------- 参考链接:
Spring 小知识点
一.引入配置文件的方式: 方式一: <context:property-placeholder location="classpath:jdbc.properties,classpat ...
Linux笔记：linux常用命令
文件目录操作 1.展示目录命令 ls # 展示当前目录下的可见文件 ls -a # 展示当前目录下所有的文件(包括隐藏的文件) ls -l # 展示当前目录下文件的详细信息 ll # 展示当前目录下文 ...
NMS—卷积神经网络
1-传统的NMS NMS,非极大值抑制,在很多计算机视觉问题中有着重要应用,尤其是目标检测领域. 以人脸检测为例,通常的流程为3步: (1)通过滑动窗口或者其它的object proposals方法产 ...
spring整合elasticsearch之环境搭建
推荐一个非常好的博客: 点我 // 测试使用docker下启动的es不管用, 在linux下或者windows下运行的es可用 // 进一步测试docker下启动的es链接时, 开启嗅探也链接不上, ...
C++中对象模型
C++面向对象语言一大难点是继承,但又是不得不掌握的.简单的继承是很容易理解的,但是当涉及到多继承,设计到虚函数的继承,特别是涉及到虚继承时,问题就会变得复杂.下面的内容来自参考资料中的三篇文章.C+ ...
sql中非存储过程定义参数并使用
DECLARE @dt datetime SET @dt=GETDATE()--1．短日期格式:yyyy-m-d SELECT REPLACE(CONVERT(varchar(10),@dt,120) ...
elasticsearch环境搭建
学习elasticsearch有一段时间了,整理一些学习的笔记以备忘. 以下内容都是在windows环境下的操作. 一,安装一个较新版本的java,我本地安装的java 8. 二,安装elastics ...

Hive设置变量

Hive设置变量的更多相关文章

随机推荐

热门专题