hive参数设置

 -- 设置hive的计算引擎为spark

 set hive.execution.engine=spark;

 -- 修复分区

 set hive.msck.path.validation=ignore;

 msck repair table sub_ladm_app_click_day_cnt;

 -- 打印表头

 set hive.cli.print.header=true;

 set hive.cli.print.row.to.vertical=true;

 set hive.cli.print.row.to.vertical.num=1;

  

 -- 显示当前数据库

 set hive.cli.print.current.db=true;

 // 开启任务并行执行

 set hive.exec.parallel=true;

 // 同一个sql允许并行任务的最大线程数

 set hive.exec.parallel.thread.number=8;

 -- 1、合并输入文件

 -- 每个Map最大输入大小

 set mapred.max.split.size=128000000;

 -- 一个节点上split的至少的大小 

 set mapred.min.split.size.per.node=100000000;

 -- 一个交换机下split的至少的大小

 set mapred.min.split.size.per.rack=100000000;

 -- 执行Map前进行小文件合并

 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

 -- 2、合并输出文件

 -- 在Map-only的任务结束时合并小文件

 set hive.merge.mapfiles=true;

 -- 在Map-Reduce的任务结束时合并小文件

 set hive.merge.mapredfiles = true;

 -- 合并文件的大小

 set hive.merge.size.per.task = 134217728;

 -- 当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge

 set hive.merge.smallfiles.avgsize=16000000;

 -- pa

 set hive.exec.parallel = true;

 set hive.exec.parallel.thread.number=50;

 set mapred.reduce.tasks=999;

 set hive.merge.smallfiles.avgsize=100000000;

 set mapred.combine.input.format.local.only=false;

 -- 控制hive任务的reduce数

 set hive.exec.reducers.bytes.per.reducer=200000000;

 set hive.exec.reducers.max=150;

 set hive.exec.compress.intermediate=true;

 -- map执行前合并小文件，减少map数

 set mapred.max.split.size=256000000;

 set mapred.min.split.size=256000000;

 set mapred.min.split.size.per.node=100000000;

 set mapred.min.split.size.per.rack=100000000;

 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

 set hive.merge.mapredfiles = true;

 set hive.merge.smallfiles.avgsize=100000000;

 set mapred.combine.input.format.local.only=false;

 set hive.map.aggr=true;

 set hive.groupby.skewindata=true;

 set mapreduce.reduce.memory.mb=6144;

 set mapreduce.reduce.java.opts=-Xms2000m -Xmx8192m;

 set mapred.compress.map.output=true;

 set Hive.optimize.skewjoin = true;

 set Hive.skewjoin.key=10000000;

 set hive.auto.convert.join=true;

 set hive.mapjoin.smalltable.filesize=25000000;

 set io.sort.spill.percent=0.6;

 set mapred.job.shuffle.input.buffer.percent=0.2 ;

 set mapred.job.shuffle.merge.percent=0.6;

 set hive.orc.compute.splits.num.threads=50;

 -- 修改reduce任务从map完成80%后开始执行

 set mapreduce.job.reduce.slowstart.completedmaps=0.8

 -- 加大内存

 set mapreduce.map.memory.mb=16384;

 set mapreduce.map.java.opts=-Xmx13106M;

 set mapred.map.child.java.opts=-Xmx13106M;

 set mapreduce.reduce.memory.mb=16384;

 set mapreduce.reduce.java.opts=-Xmx13106M;--reduce.memory*0.8

 set mapreduce.task.io.sort.mb=512

 -- 从本地文件加载数据：

 LOAD DATA LOCAL INPATH '/home/hadoop/input/ncdc/micro-tab/sample.txt' OVERWRITE INTO TABLE records;

 load data local inpath '/home/hive/partitions/files' into table logs partition (dt='2017-08-01',country='GB');

 -- 函数帮助

 show functions;

 desc function to_date;

 desc function extended to_date;

 -- 数组、map、结构

 select col1[],col2['b'],col3.c from complex;

 -- 导出orc文件

 hive --orcfiledump /user/hive/warehouse/sx_360_safe.db/user_reg_info_init2

 -- 导出hive表数据

 insert overwrite local directory '/tmp/tmp_20170830/app_210_s3_1016' row format delimited fields terminated by ',' select * from app_210_s3_1016;

 cd /tmp/tmp_20170830/sub_ladm_exc_app_210_s3_1016

 cat * > /tmp/tmp_20170830/result/app_210_s3_1016.csv

 cd /tmp/tmp_20170830/result/

 gzip app_210_s3_1016.csv

 -- hive生成统一ID

 select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "");

 -- 行转列功能

 -- 打印列名

 set hive.cli.print.header=true;

 -- 开启行转列功能, 前提必须开启打印列名功能

 set hive.cli.print.row.to.vertical=true;

 -- 设置每行显示的列数

 set hive.cli.print.row.to.vertical.num=1;

hive参数设置的更多相关文章

Hive参数
1.hive当中的参数.变量都是以命名空间开头 2.通过${}方式进行引用,其中system.env下的变量必须以前缀开头 3.hive参数设置方式 1.修改配置文件${HIVE_HOME}/conf ...
【Hive学习之五】Hive 参数&动态分区&分桶
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
hive学习05 参数设置
001参数设置 hive执行命令的本质是mapreduce,当然也可以作为关系型数据库进行查询 --设置一个job有多少个reducer处理,依据多少的是文件的大小,默认1G set hive.exe ...
[Hive] - Hive参数含义详解
hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以 ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
MySQL高可用架构之Mycat-关于Mycat安装和参数设置详解
MySQL高可用架构之Mycat-关于Mycat安装和参数设置详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Mycat介绍 1>.什么是Mycat Mycat背后是 ...
hive参数配置及任务优化
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@S ...
hive参数——深入浅出学Hive
第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.d ...
Hive参数调优
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hiv ...

随机推荐

PLSQL语法
Procedural Language和SQL的结合体.通过增加变量.控制语句,使我们可以写些逻辑更加复杂的数据库操作语句框架组成 declare – 可选声明各种变量或游标的地方. begin ...
后台执行UNIX/Linux命令和脚本的五种方法
hiveserver 后台启动 nohup "${HIVE_HOME}"/bin/hive --service hiveserver2 & 1. 使用&符号在后台执 ...
redhat图形界面启动后出现桌面但是没有登录界面解决办法
redhat图形界面启动后出现桌面但是没有登录界面解决办法 2014年07月11日 10:50:10 阅读数:7931 redhat Linux一直用着好好地,今天打开只有图像界面背景,没有出现登陆界 ...
Python程序设计8——网络编程
Python是一个很强大的网络编程工具,python内有很多针对场景网络协议的库,在库顶部可以获得抽象层,这样就可以集中精力在程序的逻辑处理上,而不是停留在网络实现的细节中. 1 少数几个网络设计模块 ...
ConcurrentHashMap的putIfAbsent
这个方法在key不存在的时候加入一个值,如果key存在就不放入,等价: if (!map.containsKey(key)) return map.put(key, value); else retu ...
appium自动化安装（一）
1.首先去 https://github.com/ 了解一下appium一些相关信息 2.安装node.js:node.js官方网站:https://nodejs.org/ 安装完成,打开Wind ...
Vue国际化的使用
首先是是在main.js文件中把国际化引入进来 import Vue from 'vue' import App from './App' import router from './router' ...
socket socket讲解
socket socket讲解一.socket是何物? 参考百度百科: http://baike.baidu.com/link?url=4YNURsJLEaL0II79C68gPUoYKliXWJ ...
正经学C#_位移与其位移运算符[c#入门经典]
在c#入门经典一书中,最为糟糕的一节就是位移了,完全没有讲明白,也没有说全,似乎只是轻轻点了一下何为位移,带了两次原码和补码,完全不理会是否明白不明白.这一点这本书很差.因为此书说了,在大多数应用开发 ...
[WIP]React 核心概念
创建: 2019/05/01 Hello World ReactDOM.render( <p>sample</p>, document.getElementById('ro ...

hive参数设置

hive参数设置的更多相关文章

随机推荐

热门专题