hive参数配置及任务优化
一、hive常用参数
0.常用参数
--@Name:
--@Description:
--@Type:全量加载
--@Author:---
--@CreateDate:
--@Target:
--@SourceTable:
--@ModifyBy:
--@ModifyDate:
--@ModifyDesc:
--@Copyright
--设置作业名
set mapred.job.name = hive_xxx(${statisdate});
--Map输入合并大小
set mapreduce.input.fileinputformat.split.maxsize=300000000;
set mapreduce.input.fileinputformat.split.minsize=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=100000000;
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
--设置reduce数目
set hive.exec.reducers.bytes.per.reducer= 300000000;
set hive.exec.reducers.max=300;
--输出合并
set hive.merge.mapfiles = true;
set hive.merge.mapredfiles = true;
set hive.merge.size.per.task = 128000000;
set hive.merge.smallfiles.avgsize=16000000;
--是否使用mapjoin
set hive.auto.convert.join = false;
--设置默认用户
use xxx_db;
1.任务名设置
set mapreduce.job.name=xxxx(${statis_date}) # 方便定位具体任务
2.输入合并参数设置
set mapreduce.input.fileinputformat.split.maxsize=300000000;
set mapreduce.input.fileinputformat.split.minsize=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=100000000;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat; --不进行小文件合并
3.输出合并参数设置
set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge
4.reduce设置
set hive.exec.reducers.bytes.per.reducer= 300000000;
set hive.exec.reducers.max=300;
set mapred.reduce.tasks=10; #固定reduce大小
5.mapjoin参数设置
set hive.auto.convert.join= false; -- 是否开启mapjoin
set hive.auto.convert.join.noconditionaltask = true ; -- 是否将多个mj合并成一个
set hive.auto.convert.join.nonconditionaltask.size = ; -- 多个mj合并后的大小(阈值)
6.map端聚合
set hive.map.aggr = true;
7.mapreduce的物理内存、虚拟内存
set mapreduce.map.memory.mb = 4096;
set mapreduce.reduce.memory.mb = 4096;
set mapreduce.map.java.opts=-Xmx3278m;
set mapreduce.reduce.java.opts=-Xmx3278m;
---------------------------------------------------
-- set mapreduce.map.memory.mb = 4096;
-- set mapreduce.reduce.memory.mb = 4096;
-- 此参数设计必须在允许范围内
-- yarn.scheduler.maximum-allocation-mb=8192;
-- yarn.scheduler.minimum-allocation-mb=1024;
---------------------------------------------------
-- 堆内存设置要小于物理内存,一般设置为80%
-- set mapreduce.map.java.opts=-Xmx1638m;
-- set mapreduce.reduce.java.opts=-Xmx3278m;
---------------------------------------------------
-- Application application_1409135750325_48141 failed 2 times due to AM Container for
-- appattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container
-- [pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.
-- Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of 4.2 GB virtual memory used. Killing container.
-- #虚拟内存打开:yarn.nodemanager.vmem-check-enabled=true
-- 最大允许使用的虚拟内存=最大可使用的物理内存 * yarn.nodemanager.vmem-pmem-ratio=2.1
-- #物理内存检查打开:yarn.nodemanager.pmem-check-enabled=true
-- 两者中有一个超过允许最大内存,此container容器均会被杀
---------------------------------------------------
8.动态分区
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict; # 非严格模式
9. shuffle端内存溢出oom (BoundedByteArrayOutputStream)
set mapreduce.reduce.shuffle.memory.limit.percent=0.10;
10.map段谓词下推
set hive.optimize.ppd=true;
11.并行执行
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=16; # 并行度
12.reduce申请资源时机
mapreduce.job.reduce.slowstart.completedmaps=0.05
控制当map任务执行到哪个比例的时候就可以开始为reduce task申请资源 mapreduce.job.reduce.slowstart.completedmaps这个参数如果设置的过低,那么reduce就会过早地申请资源,造成资源浪费;
如果这个参数设置的过高,比如为1,那么只有当map全部完成后,才为reduce申请资源,开始进行reduce操作,实际上是串行执行,不能采用并行方式充分利用资源。 如果map数量比较多,一般建议提前开始为reduce申请资源。
二、hive任务优化
1.分区裁剪
1.查询涉及分区表时,限制分区范围
2.使用to_unix_timestamp代替unix_timestamp(),避免全表扫描
2.列裁剪
只读取查询中需要用到的列,忽略其他不关心的列
Select * from table_test;
Select field_1,field_2,… from table_test;
Select * 跟select 所有字段是否一样?(网络IO,索引)
3.合理设置map、reduce个数
Map数: splitSize=Math.max(minSize, Math.min(maxSize, blockSize))
reduce数: reducers = Math.min(maxReducers, totalInputFileSize/bytesPerReducer)
# 根据任务运行效率,调整map reduce处理数据量大小
4.group by 优化
set hive.map.aggr=true;
select id,count(1) from test group by id;
set hive.groupby.skewindata = true;
• 先不按GroupBy字段分发,随机分发做一次聚合
• 额外启动一轮job,拿前面聚合过的数据按GroupBy字段分发再算结果
5.join优化
大表跟小表之间join时,可打开mapjoin,将小表加载到内存中
set hive.mapjoin.smalltable.filesize 25M
set hive.auto.convert.join = true;
ps:不能只看文件大小,决定使用使用mapjoin,容易导致OOM(字段、过滤、去重后的记录数跟文件大小) --map端join把小表读入内存
set hive.exec.parallel=true;
select /*+mapjoin(t2)*/
t1.vendor_cd,
t2.vendor_cd
from (select vendor_cd
from tmp_tt
) t1
left outer join
(select vendor_cd
from tmp_tt
limit 10
) t2
on t1.vendor_cd=t2.vendor_cd
limit 100; --控制map数,并且用mapjoin实现笛卡尔积
set mapred.reduce.tasks=10;
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat; --不进行小文件合并
set hive.exec.parallel=true;
select /*+mapjoin(t2)*/
t1.vendor_cd,
t2.vendor_cd
from (select vendor_cd
from tmp_tt
distribute by vendor_cd
) t1
left outer join
(select vendor_cd
from tmp_tt
distribute by vendor_cd
) t2
limit 100;
6.数据倾斜
--特殊倾斜值的处理(null值很多的时候)
set hive.exec.parallel=true;
select t1.vendor_cd,
t2.vendor_cd
from (select vendor_cd
from tmp_tt
) t1
left outer join
(select vendor_cd
from tmp_tt
) t2
on nvl(t1.vendor_cd,concat('hive_',rand()))=t2.vendor_cd
limit 100;
--当心关联的类型是否一致,类型不一致可能会导致数据倾斜或者算出意想不到的结果
set hive.exec.parallel=true;
select t1.vendor_cd,
t2.vendor_cd
from (select vendor_cd //int类型
from tmp_tt
) t1
left outer join
(select vendor_cd //string类型
from tmp_tt
) t2
on cast(t1.vendor_cd as string)=t2.vendor_cd
limit 100;
hive参数配置及任务优化的更多相关文章
- hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
- hive参数配置
CLI参数 两种修改方式: 1)启动时 hive --hiveconf hive.cli.print.current.db=true 2)修改当前用户home目录下 .hiverc文件,hive c ...
- Hive命令行及参数配置
1 . Hive 命令行 输入$HIVE_HOME/bin/hive –H 或者 –help 可以显示帮助选项: 说明: 1. -i 初始化 HQL 文件. 2. -e 从命令行执行指定的 HQL ...
- Mysql性能优化之参数配置(转)
前言: Mysql作为数据库中广泛应用的开源产品,需要面对不同的生产压力,而有些性能问题通过配置优化就可以得到解决,优化可以分为几个方向:1.优化参数配置.2.优化数据库索引.3.优化数据库结构,如分 ...
- [效果不错] nginx 高并发参数配置及linux内核参数优化,完整的内核优化设置。PHP-FPM高负载解决办法。
背景:对vps小资源的实践中对,https://justwinit.cn/post/7536/ 的再优化,再实践,再优化,特别是Nginx,PHP,内核: 零)Nginx: error_log /da ...
- java架构之路-(JVM优化与原理)JVM之G1回收器和常见参数配置
过去的几天里,我把JVM内部的垃圾回收算法和垃圾回收器.还剩下最后一个G1回收器没有说,我们今天数一下G1回收器和常见的参数配置. G1回收器 G1 (Garbage-First)是一款面向服务器的垃 ...
- Hive 教程(五)-参数配置
配置基本操作 hive> set; 查看所有配置hive> set key: 查看某个配置hive> set key value: 设置某个配置 我们可以看到一些 hadoop 的配 ...
- Hive设置配置参数的方法,列举8个常用配置
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1).修改${HIVE_HOME}/conf/hive-site.xml配置文件: (2).命令行参数: (3).在已经 ...
- Nginx 笔记(四)nginx 原理与优化参数配置 与 nginx 搭建高可用集群
个人博客网:https://wushaopei.github.io/ (你想要这里多有) 一.nginx 原理与优化参数配置 master-workers 的机制的好处 首先,对于每个 ...
随机推荐
- 深入理解ajax
http://www.imooc.com/code/13468 基础练习 http://www.imooc.com/video/5644 !ajax! 常用 for ...
- Ubuntu16.04安装MySQL
本篇教程在示例步骤中使用了以下版本的软件.操作时,请您以实际软件版本为准. 操作系统:Ubuntu 16.04.3 LTS (GNU/Linux 4.4.0-105-generic x86_64) ...
- Eclipse 软件 Java 解决:出现的editor does not contain a main type错误框 问题
Eclipse 软件 解决:出现的 editor does not contain a main type 错误框 问题 当你运行 Java文件是,如果弹出了下面的 错误框: 出现错误的原因: 当前的 ...
- Confluence 6 配置 Office 转换器
Office 连接器(Office Connector)允许 Confluence 用户能够查看和编辑从 Microsoft Office 和 Open Office 中导入并附加到页面的内容. Of ...
- python用unittest+HTMLTestRunner+csv的框架测试并生成测试报告
直接贴代码: import csv # 导入scv库,可以读取csv文件from selenium import webdriverimport unittestfrom time import s ...
- laravel 服务提供者
服务提供者,在laravel里面,其实就是一个工厂类.它最大的作用就是用来进行服务绑定.当我们需要绑定一个或多个服务的时候,可以自定义一个服务提供者,然后把服务绑定的逻辑都放在该类的实现中.在lara ...
- bzoj1912 树形dp求直径(新写法),求直径的两端点
通过回溯法可以求出直径的两个端点,同时注意有负权边的树求直径不可以用两次dfs来求,而必须用dp做 /* 分情况讨论问题 一条边也不加的情况,显然每条边要扫描两次, 该情况的答案是2(n-1) 只加一 ...
- ATM机模拟系统
实验要求 https://pan.baidu.com/s/1Sq5joWyVsNhY8DYiyI4UmQ 源代码 /*信1705-1 20173458 王嘉梁*/ package atm; impor ...
- hdu 5183(Hash处理区间问题)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5183 题意:给出一个n个元素的数组,现在要求判断 a1-a2+a3-a4+.....+/-an 中是否 ...
- 饮冰三年-人工智能-linux-07 硬盘分区、格式化及文件系统的管理
先给虚拟机添加一个硬盘 通过fdisk -l sdb,查看磁盘内容 通过fdisk /sdb 来操作分区 创建一个新分区 创建第二个分区 创建第三个分区 创建扩展分区 再次创建分区,其实使用的是扩展分 ...