Hadoop Mapreduce 参数（二）

卖程序的小歪 2024-10-19 09:01:04 原文

MergeManagerImpl 类

内存参数计算

maxInMemCopyUse

位于构造函数中

    final float maxInMemCopyUse =

      jobConf.getFloat(MRJobConfig.SHUFFLE_INPUT_BUFFER_PERCENT,

          MRJobConfig.DEFAULT_SHUFFLE_INPUT_BUFFER_PERCENT);

    if (maxInMemCopyUse > 1.0 || maxInMemCopyUse < 0.0) {

      throw new IllegalArgumentException("Invalid value for " +

          MRJobConfig.SHUFFLE_INPUT_BUFFER_PERCENT + ": " +

          maxInMemCopyUse);

    }

这个参数就是reducer端shuffle输入缓冲占JVM堆的比例即参数：mapreduce.reduce.shuffle.input.buffer.percent，默认为0.7f

memoryLimit

位于构造函数中，memoryLimit一般情况下就是reducer端输入缓冲的大小，由比例值和JVM堆大小相乘得出。

    // Allow unit tests to fix Runtime memory

    this.memoryLimit =

      (long)(jobConf.getLong(MRJobConfig.REDUCE_MEMORY_TOTAL_BYTES,

          Math.min(Runtime.getRuntime().maxMemory(), Integer.MAX_VALUE))

        * maxInMemCopyUse);

但是仔细观察代码发现它没有直接将Runtime.getRuntime().maxMemory()和maxInMemCopyUse相乘，而是对前者和Integer.MAX_VALUE取了个最小值，这个设计还是挺令人费解的。不过这是在没有设定REDUCE_MEMORY_TOTAL_BYTES（mapreduce.reduce.memory.totalbytes）参数的情况下，如果设定了那么会忽略后面的值。注释中其实也给了一些说明，但是只是为了针对unit tests来fix这个问题。但是个人觉得实际中还是可能会有这样的大内存需求的情况出现，来提高copy-merge速度。

maxInMemReduce

位于最后一轮merge（finalMerge）过程中的计算，这个参数表示reduce开始后，保留给shuffle数据占JVM堆大小。如果reducer不需要太占内存的话，可以让这个值大一点，这样就可以减少写入磁盘的记录数，reducer可以直接从内存获取输入。

    final float maxRedPer =

      job.getFloat(MRJobConfig.REDUCE_INPUT_BUFFER_PERCENT, 0f);

    if (maxRedPer > 1.0 || maxRedPer < 0.0) {

      throw new IOException(MRJobConfig.REDUCE_INPUT_BUFFER_PERCENT +

                            maxRedPer);

    }

    int maxInMemReduce = (int)Math.min(

        Runtime.getRuntime().maxMemory() * maxRedPer, Integer.MAX_VALUE);

maxRedPer对应与参数mapreduce.reduce.input.buffer.percent(旧版为mapred.job.reduce.input.buffer.percent)，即保留给shuffle数据空间占堆的比例，接着又开始发生坑爹的逻辑了又要把上限设定为Integer.MAX_VALUE了，不过这里我们看出一些端倪，是不是因为原来结构中maxInMemReduce对应的数据类型是int而不是long造成了目前这种奇异的逻辑。这次没有什么方法可以突破这个限制，也就是说当shuffle数据超过2GB后，无论如何调整io.sort.factor和mapreduce.reduce.input.buffer.percent都将使得超过2GB大小的数据写到磁盘上，即使分配了足够的堆空间。

Hadoop Mapreduce 参数（二）的更多相关文章

Hadoop Mapreduce 参数（一）
参考 hadoop权威指南第六章,6.4节背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
使用eclipse的快捷键自动生成的map或者reduce函数的参数中：“org.apache.hadoop.mapreduce.Reducer.Context context”
今天在测试mapreduce的程序时,就是简单的去重,对照课本上的程序和自己的程序,唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context contex ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop（十二）MapReduce概述
前言前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架. 一.背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 ...
Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）
不多说,直接上代码. 一共12列,我们只需提取有用的列:第二列(犯罪类型).第四列(一周的哪一天).第五列(具体时间)和第七列(犯罪场所). 思路分析基于项目的需求,我们通过以下几步完成: 1.首先 ...
Hadoop学习（二） Hadoop配置文件参数详解
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4. etc/hadoop/core-site.xm ...
Hadoop MapReduce编程 API入门系列之join（二十六）（未完）
不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如 ...
Hadoop MapReduce编程 API入门系列之倒排索引（二十四）
不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JV ...

随机推荐

Note of The Linux Command Line
心得在用鼠标点击的图形化桌面之前,单纯用键盘操作软件的时代已经很成熟了.并且还在这样延续下去.鼠标不是电脑操作的唯一模式,至少不是程序员的. 在黑色屏幕下,因为没有鼠标所以只能用按键来操作软件.包括 ...
Python如何判断字符串中是否有中文
解决:Python如何判断字符串中是否有中文 In [240]: s Out[240]: '你好aa' In [241]: for i in s: ...: if u'\u4e00' <= i ...
上台阶问题（递归，DFS）
题目一共39层台阶.如果我每一步迈上1个台阶或者两个台阶,先迈左脚,再迈右脚,然后左右交换,最后一步迈右脚,也就是一共要走偶数步,那么,上完39级台阶,有多少种不同的方法? 思路采用递归的思想,边 ...
POJ 2782
#include <iostream> #include <algorithm> #define MAXN 100005 using namespace std; int _m ...
57.storm拓扑结构调整
几个概念 Topology(拓扑):Spout.Bolt组成的一个完整的流程结构: Stream Grouping:流分组.数据的分发方式: Spout:直译水龙头,也就是消息源的意思: Bol ...
odoo开发笔记-- 按钮动作跳转到其他列表视图默认搜索
按钮动作跳转到其他列表视图按照默认指定的条件搜索显示. 效果: 实现方式:
Python：快速查找出被挂马的文件
网站被入侵,担心被挂马,因此就想自己写个脚本来查找那些被挂马的文件思路需要实现准备一份未受感染的源代码和一份可能受感染的源代码,然后运行以下脚本,就能找出到底哪些文件被挂马了. 其中,主要是根据比 ...
Choose GitLab for your next open source project
原文:https://b.agilob.net/choose-gitlab-for-your-next-project/ GitLab.com is a competitor of GIthub. I ...
php -- 4种嵌入标记
----- 001-tags.php ----- <!DOCTYPE html> <html> <head> <meta http-equiv="c ...
python使用requests请求的数据乱码
1.首先进入目标网站,浏览器查看源码,找到head标签下面的meta标签,一般meta标签不止一个,我们只需找到charset属性里面的值即可 2.requests请求成功时,设置它的编码,代码如下 ...