HIVE SQL产生的文件数量及参数调优

　　产生背景：sqoop抽取oracle数据到hive表时，只能写入到固定分区（--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值）。于是先把数据抽取到一张增量表，然后从增量表动态写入分区表。

set hive.exec.dynamic.partition.mode = true;　　--使用动态分区时，设置为ture。

set hive.exec.dynamic.partition.mode = nonstrict;　　--动态分区模式，默认值：strict，表示必须指定一个分区为静态分区；nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstrict。

set hive.exec.max.dynamic.partitions.pernode =10;　　--在每个执行MR的节点上，最多可以创建多少个动态分区，默认值：100。

set hive.exec.max.dynamic.partitions =1000;　　--在所有执行MR的节点上，最多一共可以创建多少个动态分区，默认值：1000。

set hive.exec.max.created.files = 100000;　　--整个MR Job中最多可以创建多少个HDFS文件，默认值：100000。

set hive.error.on.empty.partition = false;　　--当有空分区产生时，是否抛出异常，默认值：false。

　　Hive文件产生大量小文件的原因：

　　　　一是文件本身的原因：小文件多，以及文件的大小；

　　　　二是使用动态分区，可能会导致产生大量分区，从而产生很多小文件，也会导致产生很多Mapper；

　　　　三是Reduce数量较多，Hive SQL输出文件的数量和Reduce的个数是一样的。

　　小文件带来的影响：

　　　　文件的数量和大小决定Mapper任务的数量，小文件越多，Mapper任务越多，每一个Mapper都会启动一个JVM来运行，所以这些任务的初始化和执行会花费大量的资源，严重影响性能。

　　　　在NameNode中每个文件大约占150字节，小文件多，会严重影响NameNode性能。

　　解决小文件问题：

　　　　如果动态分区数量不可预测，最好不用。如果用，最好使用distributed by分区字段，这样会对字段进行一个hash操作，把相同的分区给同一个Reduce处理；

　　　　减少Reduce数量；

　　　　进行以一些参数调整。

控制Mapper的数量：

　　决定Mapper的数量的因素有：输入文件的个数，输入文件的大小、集群设置的文件块大小。

　　　　例如：输入目录下有1个800M的文件，hadoop会将文件分成7个文件（6*128M + 1*32M），从而产生7个Mapper数；

　　　　例如：输入目录下有5个文件，分别为：15M、20M、50M、100M、150M，那么hadoop会分隔成6个文件（15M、20M、50M、100M、128M、22M），从而产生6个Mapper。

　　可以通过设置如下参数，让Map在执行之前合并小文件，从而减少Mapper数量：

set mapred.max.split.size=100000000; 　　-- 决定每个map处理的最大的文件大小，单位为B

set mapred.min.split.size.per.node=100000000; 　　-- 节点中可以处理的最小的文件大小

set mapred.min.split.size.per.rack=100000000; 　　-- 机架中可以处理的最小的文件大小

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;　　---实现map中的数据合并需要设置下面的参数，集群默认就是这个格式

　　控制Mapper的整体原则：

　　　　大数据量要利用合适的map数，单个map要处理合适的数据量；

　　　　map占用资源要合并小文件，map不足要把大文件拆成小文件。

控制Reduce的数量：

　　Reduce的个数会极大影响任务的执行效率

Hive自己确定reduce数

　　　　不指定Reduce的个数的情况下，Hive会猜测确定一个Reduce个数，由下面两个参数决定：

　　　　1、hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）

　　　　2、hive.exec.reducers.max（每个任务最大的reduce数，默认为999）

　　　　Reduce的个数N=min(参数2，输入总数据量/参数1)，例如：如果Reduce的输入（map的输出）总大小不超过1G，那么只有一个Reduce任务。

手动调整reduce数

　　　　Hive官网：

In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number>

In order to set a constant number of reducers: set mapreduce.job.reduces=<number>

　　Notes：动态分区采坑

　　　　在使用动态分区的时候，如果已知数据会分成n个分区，SQL运行的时候创建了m个Mapper，则这个SQL产生m * n个文件。如果这个数值大于设置的创建文件的总数（hive.exec.max.created.files），默认值100000个，就会出现异常。

　　　　在未知动态分区数时，可以使用distribute by 分区字段，将分区字段内容相同的数据放到同一个reduce，当然也可以使用distribute by rand()将数据随记分配给reduce，这样可以使每个reduce处理的数据大体相同。

和map一样，启动和初始化reduce会消耗时间和资源，有多少reduce就会产生多少个文件
以下情况下，会只有一个reduce：

没有group by的汇总，如把select dt,count(1) from test where dt = '2019-12-12' group by dt；，写成select count(1) from test where dt = '2019-12-12'；
用了order by；
有笛卡尔积；

　　控制Reduce的整体原则：

　　　　使大数据量利用合适的reduce数；

　　　　使单个reduce任务处理合适的数据量。

HIVE SQL产生的文件数量及参数调优的更多相关文章

大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
1，Spark参数调优
Spark调优目录 Spark调优一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯二.参数调优资 ...
看MySQL的参数调优及数据库锁实践有这一篇足够了
史上最强MySQL参数调优及数据库锁实践 1. 应用优化 1.2 减少对MySQL的访问 1.2.1 避免对数据进行重复检索 1.2.2 增加cache层 1.3 负载均衡 1.3.1 利用MySQL ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Linux内核 TCP/IP、Socket参数调优
Linux内核 TCP/IP.Socket参数调优 2014-06-06 Harrison.... 阅 9611 转 165 转藏到我的图书馆微信分享: Doc1: /proc/sy ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
php-fpm参数调优
关于php-fpm.conf参数调优,只对重要的参数进程调优.其它可参数前辈的. http://php.net/manual/zh/install.fpm.configuration.php (官方的 ...
XGBoost参数调优完全指南
简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据.构造一个使用XGBoost ...
【Spark篇】---Spark中内存管理和Shuffle参数调优
一.前述 Spark内存管理 Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等 ...

随机推荐

JVM从入门开始深入每一个底层细节
1 官网 1.1 寻找JDK文档过程 www.oracle.com -> 右下角Product Documentation -> 往下拉选择Java -> Java SE docum ...
linux学习（三）输入输出重定向和管道功能、cat命令、more命令
目录输入输出重定向输出重定向管道功能 cat命令 more命令 @(输入输出重定向和管道功能) 输入输出重定向输入重定向可以让用户将某个文件作为输入设备,输出重定向可以把某个文件作为输出设备, ...
[Linux] 安装grafana并且添加influxdb监控
安装grafana,官网提供了ubuntu的安装包,直接进行安装 wget https://dl.grafana.com/oss/release/grafana_6.5.1_amd64.deb dpk ...
201871020225-牟星源《面向对象程序设计（java）》第一周学习总结
正文项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daiz ...
(转)vue-router原理
转载地址:https://segmentfault.com/a/1190000014822765 随着前端应用的业务功能起来越复杂,用户对于使用体验的要求越来越高,单面(SPA)成为前端应用的主流形式 ...
day89_11_11Flask启动，配置，路由，fbv和cbv
一.flask的形成. flask是一个基于python并且以来jinja2模板和werkzeug wsgi服务器的一个微型框架. 安装了flask模块就代表安装了wekzeug,所以先安装flask ...
Educational Codeforces Round 76 (Rated for Div. 2) C. Dominated Subarray 水题
C. Dominated Subarray Let's call an array
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...
17个经典的Spring面试问答
Q1.什么是Spring Framework? Spring是Java企业版应用程序开发中使用最广泛的框架.Spring的核心功能可用于开发任何Java应用程序. 我们可以使用它的扩展来在Java E ...
依赖注入组件 Autofac 的小记
1. 批量给 Service 层自动注入.(支持 ASP.NET Core) builder.RegisterAssemblyTypes(typeof(IProductService).Assemb ...

HIVE SQL产生的文件数量及参数调优

HIVE SQL产生的文件数量及参数调优的更多相关文章

随机推荐

热门专题