HIVE SQL产生的文件数量及参数调优

　　产生背景：sqoop抽取oracle数据到hive表时，只能写入到固定分区（--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值）。于是先把数据抽取到一张增量表，然后从增量表动态写入分区表。

set hive.exec.dynamic.partition.mode = true;　　--使用动态分区时，设置为ture。

set hive.exec.dynamic.partition.mode = nonstrict;　　--动态分区模式，默认值：strict，表示必须指定一个分区为静态分区；nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstrict。

set hive.exec.max.dynamic.partitions.pernode =10;　　--在每个执行MR的节点上，最多可以创建多少个动态分区，默认值：100。

set hive.exec.max.dynamic.partitions =1000;　　--在所有执行MR的节点上，最多一共可以创建多少个动态分区，默认值：1000。

set hive.exec.max.created.files = 100000;　　--整个MR Job中最多可以创建多少个HDFS文件，默认值：100000。

set hive.error.on.empty.partition = false;　　--当有空分区产生时，是否抛出异常，默认值：false。

　　Hive文件产生大量小文件的原因：

　　　　一是文件本身的原因：小文件多，以及文件的大小；

　　　　二是使用动态分区，可能会导致产生大量分区，从而产生很多小文件，也会导致产生很多Mapper；

　　　　三是Reduce数量较多，Hive SQL输出文件的数量和Reduce的个数是一样的。

　　小文件带来的影响：

　　　　文件的数量和大小决定Mapper任务的数量，小文件越多，Mapper任务越多，每一个Mapper都会启动一个JVM来运行，所以这些任务的初始化和执行会花费大量的资源，严重影响性能。

　　　　在NameNode中每个文件大约占150字节，小文件多，会严重影响NameNode性能。

　　解决小文件问题：

　　　　如果动态分区数量不可预测，最好不用。如果用，最好使用distributed by分区字段，这样会对字段进行一个hash操作，把相同的分区给同一个Reduce处理；

　　　　减少Reduce数量；

　　　　进行以一些参数调整。

控制Mapper的数量：

　　决定Mapper的数量的因素有：输入文件的个数，输入文件的大小、集群设置的文件块大小。

　　　　例如：输入目录下有1个800M的文件，hadoop会将文件分成7个文件（6*128M + 1*32M），从而产生7个Mapper数；

　　　　例如：输入目录下有5个文件，分别为：15M、20M、50M、100M、150M，那么hadoop会分隔成6个文件（15M、20M、50M、100M、128M、22M），从而产生6个Mapper。

　　可以通过设置如下参数，让Map在执行之前合并小文件，从而减少Mapper数量：

set mapred.max.split.size=100000000; 　　-- 决定每个map处理的最大的文件大小，单位为B

set mapred.min.split.size.per.node=100000000; 　　-- 节点中可以处理的最小的文件大小

set mapred.min.split.size.per.rack=100000000; 　　-- 机架中可以处理的最小的文件大小

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;　　---实现map中的数据合并需要设置下面的参数，集群默认就是这个格式

　　控制Mapper的整体原则：

　　　　大数据量要利用合适的map数，单个map要处理合适的数据量；

　　　　map占用资源要合并小文件，map不足要把大文件拆成小文件。

控制Reduce的数量：

　　Reduce的个数会极大影响任务的执行效率

Hive自己确定reduce数

　　　　不指定Reduce的个数的情况下，Hive会猜测确定一个Reduce个数，由下面两个参数决定：

　　　　1、hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）

　　　　2、hive.exec.reducers.max（每个任务最大的reduce数，默认为999）

　　　　Reduce的个数N=min(参数2，输入总数据量/参数1)，例如：如果Reduce的输入（map的输出）总大小不超过1G，那么只有一个Reduce任务。

手动调整reduce数

　　　　Hive官网：

In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number>

In order to set a constant number of reducers: set mapreduce.job.reduces=<number>

　　Notes：动态分区采坑

　　　　在使用动态分区的时候，如果已知数据会分成n个分区，SQL运行的时候创建了m个Mapper，则这个SQL产生m * n个文件。如果这个数值大于设置的创建文件的总数（hive.exec.max.created.files），默认值100000个，就会出现异常。

　　　　在未知动态分区数时，可以使用distribute by 分区字段，将分区字段内容相同的数据放到同一个reduce，当然也可以使用distribute by rand()将数据随记分配给reduce，这样可以使每个reduce处理的数据大体相同。

和map一样，启动和初始化reduce会消耗时间和资源，有多少reduce就会产生多少个文件
以下情况下，会只有一个reduce：

没有group by的汇总，如把select dt,count(1) from test where dt = '2019-12-12' group by dt；，写成select count(1) from test where dt = '2019-12-12'；
用了order by；
有笛卡尔积；

　　控制Reduce的整体原则：

　　　　使大数据量利用合适的reduce数；

　　　　使单个reduce任务处理合适的数据量。

HIVE SQL产生的文件数量及参数调优的更多相关文章

大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
1，Spark参数调优
Spark调优目录 Spark调优一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯二.参数调优资 ...
看MySQL的参数调优及数据库锁实践有这一篇足够了
史上最强MySQL参数调优及数据库锁实践 1. 应用优化 1.2 减少对MySQL的访问 1.2.1 避免对数据进行重复检索 1.2.2 增加cache层 1.3 负载均衡 1.3.1 利用MySQL ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Linux内核 TCP/IP、Socket参数调优
Linux内核 TCP/IP.Socket参数调优 2014-06-06 Harrison.... 阅 9611 转 165 转藏到我的图书馆微信分享: Doc1: /proc/sy ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
php-fpm参数调优
关于php-fpm.conf参数调优,只对重要的参数进程调优.其它可参数前辈的. http://php.net/manual/zh/install.fpm.configuration.php (官方的 ...
XGBoost参数调优完全指南
简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据.构造一个使用XGBoost ...
【Spark篇】---Spark中内存管理和Shuffle参数调优
一.前述 Spark内存管理 Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等 ...

随机推荐

Vue.js+vue-element搭建属于自己的后台管理模板：创建一个项目（四）
Vue.js+vue-element搭建属于自己的后台管理模板:创建一个项目(四) 前言本章主要讲解通过Vue CLI 脚手架构建工具创建一个项目,在学习Vue CLI之前我们需要先了解下webpa ...
JS基础语法---Date对象---格式化日期
格式化后的指定格式的日期和时间,封装一个函数 function getDate() { var dt = new Date(); var year = dt.getFullYear(); var mo ...
SAP 固定资产添加新类别
需求:添加资产新类别(LEASE) 步骤: 1.添加 Account determination ①SPRO->Financial Accounting(New)->Asset Accou ...
Google Chome浏览器下如何开发UHF读写器
google Chrome浏览器不支持ocx,也就不能通过ocx来连接UHF读写器,只能使用RFID读写器云服务插件,通过javascript语言来连接和操控UHF读写器YW-602H.RFID读写器 ...
dedecmsV5.7 arclist标签同时取出主表和附表里的数据
{dede:arclist}{/dede:arclist}标签默认取出来的是主表x_archives中的数据,如果要取出附表中的数据,需要满足两个条件: 指定channelid属性(注意:channe ...
PHP删除数组中重复的元素
array_unique($arr): //删除重复元素 $arr = [1,2,3,0,1]; echo '<pre>'; var_dump($arr); $arr = array_un ...
sqlserver取字符串拼音首字母
sqlserver 使用函数获取一个字符串的拼音首字母 create function dbo.fn_getpinyin ( @str nvarchar(max) ) returns nvarchar ...
四、读取一系列dcm图片，然后重新写入
一.程序功能读取一系列的CT dcm图片,然后重新写入到一个文件夹二.代码 #pragma warning(disable:4996) #include "itkGDCMImageIO. ...
职位画像分析(pandas/ matplotlib)
一.数据分析的步骤二.提出问题 (1) 分析数据分析师主要的技能排名? (2) 分析数据分析师薪资和岗位地点.学历.工作年限的关系? (3) 数据分析师的学历需求? (4) 不同城市数据分析师的需求 ...
golang数据结构之选择排序
//SelectSort 选择排序 func SelectSort(arr *[]int) { ; i < len(arr); i++ { tmp := arr[i] index := i ; ...

HIVE SQL产生的文件数量及参数调优

HIVE SQL产生的文件数量及参数调优的更多相关文章

随机推荐

热门专题