参考：

https://blog.csdn.net/wuliusir/article/details/45010129

https://blog.csdn.net/zhong_han_jun/article/details/50814246

1.split的计算方式：

splitsize = max(splitsize,min(blocksize,filesize/NUMmaps))

NUMmaps即为默认的map数，默认为1，也就是说最大的splitsize为文件的大小。

2.不同的hive.input.format时map个数

hive 的split size在使用不同的input format时依赖的参数不同。

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

此时由以下三个参数控制

mapred.max.split.size  #控制最大split

mapred.min.split.size.per.node #控制最小split,优先级低

mapred.min.split.size.per.rack #控制最小split,优先级高

hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat

此时由

mapred.min.split.size

mapred.map.tasks #可以忽略，默认为1

在做split时，不如一个split的数据也会放到一个map执行，如果splitsize 128m,文件150m，则会有两个map，一个128m，另外一个22m，这样两个map执行的时间就不一样了

注意

把mapred.min.split.size\mapred.min.split.size.per.node 从128M增加到256M，可能并不会降低map数，这时需要增大数值，一边增加一边测试

3.reduce个数

reduce可以通过设置set mapred.reduce.tasks=100来指定个数，或者指定reduce计算的数据，set hive.exec.reducers.bytes.per.reducer=1073741824

以下是个样例：

set mapred.max.split.size=1024000000;

set mapred.min.split.size.per.node=512000000;

set mapred.min.split.size.per.rack=512000000;

set mapreduce.task.io.sort.mb=200;

set hive.exec.parallel.thread.number=1  ;

set mapred.reduce.tasks = 314;

set mapreduce.map.memory.mb=1024;

set mapreduce.task.io.sort.factor=50;

来自为知笔记(Wiz)

3.控制hive map reduce个数的更多相关文章

【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
map和reduce 个数的设定（Hive优化）经典
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
如何在hadoop中控制map的个数分类： A1_HADOOP 2015-03-13 20:53 86人阅读评论(0) 收藏
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Map/Reduce个人实战--生成数据测试集
背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, ...

随机推荐

P1481 魔族密码
题目描述风之子刚走进他的考场,就…… 花花:当当当当~~偶是魅力女皇——花花!!^^(华丽出场,礼炮,鲜花) 风之子:我呕……(杀死人的眼神)快说题目!否则……-_-### 花花:……咦好冷我们现在 ...
docker - kubernetes 网络（转）+ 架构图
1.host网络连接到 host 网络的容器共享 Docker host 的网络栈,容器的网络配置与 host 完全一样.可以通过--network=host指定使用 host 网络.docker ...
java spring boot项目部署-上
1.编写sh脚本,便于服务器上管理工程: #!/bin/bash source /etc/profile PROG_NAME=$ ACTION=$ usage() { echo "Usage ...
如何取得SharePoint Timer Job的历史成功数和失败数，并按照日期计算排列
[问题]. 如何取得SharePoint Timer Job的历史成功数和失败数,并按照日期计算排列 [分析] 管理中心只是罗列了所有job的历史和上一次是否成功,没有关于成功和失败的统计数据 [解决 ...
snapkit equalto和multipliedby方法
最近在使用snapkit过程中遇到一个问题,在github上搜索之后发现另外一个有趣的问题 frameImageContainer.snp.makeConstraints({ (make) in ma ...
第一次码java感想及前三次作业总结
写在前面嗯,首先是java,这学期第一次oo作业布置下来的周末才开始看的,第一次作业因此写得有些手忙脚乱.不过大概看了一遍后发现比c好用,入门更简单吧,好多操作直接import一下就能用了,码代码的 ...
Vmware 下安装linux虚拟机
由于想自己玩玩linux系统,就想着装一个linux的虚拟机,虚拟机vmware很好找,也很好用,但是linux镜像安装老是出问题,然后就找了很多版本的,最后实验成功一种,在这里分享给大家. 一.安装 ...
python科学计算和可视化学习报告
一丶numpy和matplotlib学习笔记 1. NumPy是Python语言的一个扩充程序库.支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库.Numpy内部解除了Pyth ...
洛谷 P4018 Roy&October之取石子
洛谷 P4018 Roy&October之取石子题目背景 Roy和October两人在玩一个取石子的游戏. 题目描述游戏规则是这样的:共有n个石子,两人每次都只能取 p^kpk 个(p为质 ...
linux下centos7中mysql崩溃问题的解决
---恢复内容开始--- 出现错误: 尝试解决: 错误解释是说系统运行过程中丢失了pid:我最先想到是可能磁盘满了:于是 df -h 检查了一下:磁盘并没有满! 于是我对/etc/my.cnf [m ...

3.控制hive map reduce个数

1.split的计算方式：

2.不同的hive.input.format时map个数

3.reduce个数

3.控制hive map reduce个数的更多相关文章

随机推荐

热门专题