Hadoop Mapreduce 参数（二）

卖程序的小歪 2024-10-19 09:01:04 原文

MergeManagerImpl 类

内存参数计算

maxInMemCopyUse

位于构造函数中

    final float maxInMemCopyUse =

      jobConf.getFloat(MRJobConfig.SHUFFLE_INPUT_BUFFER_PERCENT,

          MRJobConfig.DEFAULT_SHUFFLE_INPUT_BUFFER_PERCENT);

    if (maxInMemCopyUse > 1.0 || maxInMemCopyUse < 0.0) {

      throw new IllegalArgumentException("Invalid value for " +

          MRJobConfig.SHUFFLE_INPUT_BUFFER_PERCENT + ": " +

          maxInMemCopyUse);

    }

这个参数就是reducer端shuffle输入缓冲占JVM堆的比例即参数：mapreduce.reduce.shuffle.input.buffer.percent，默认为0.7f

memoryLimit

位于构造函数中，memoryLimit一般情况下就是reducer端输入缓冲的大小，由比例值和JVM堆大小相乘得出。

    // Allow unit tests to fix Runtime memory

    this.memoryLimit =

      (long)(jobConf.getLong(MRJobConfig.REDUCE_MEMORY_TOTAL_BYTES,

          Math.min(Runtime.getRuntime().maxMemory(), Integer.MAX_VALUE))

        * maxInMemCopyUse);

但是仔细观察代码发现它没有直接将Runtime.getRuntime().maxMemory()和maxInMemCopyUse相乘，而是对前者和Integer.MAX_VALUE取了个最小值，这个设计还是挺令人费解的。不过这是在没有设定REDUCE_MEMORY_TOTAL_BYTES（mapreduce.reduce.memory.totalbytes）参数的情况下，如果设定了那么会忽略后面的值。注释中其实也给了一些说明，但是只是为了针对unit tests来fix这个问题。但是个人觉得实际中还是可能会有这样的大内存需求的情况出现，来提高copy-merge速度。

maxInMemReduce

位于最后一轮merge（finalMerge）过程中的计算，这个参数表示reduce开始后，保留给shuffle数据占JVM堆大小。如果reducer不需要太占内存的话，可以让这个值大一点，这样就可以减少写入磁盘的记录数，reducer可以直接从内存获取输入。

    final float maxRedPer =

      job.getFloat(MRJobConfig.REDUCE_INPUT_BUFFER_PERCENT, 0f);

    if (maxRedPer > 1.0 || maxRedPer < 0.0) {

      throw new IOException(MRJobConfig.REDUCE_INPUT_BUFFER_PERCENT +

                            maxRedPer);

    }

    int maxInMemReduce = (int)Math.min(

        Runtime.getRuntime().maxMemory() * maxRedPer, Integer.MAX_VALUE);

maxRedPer对应与参数mapreduce.reduce.input.buffer.percent(旧版为mapred.job.reduce.input.buffer.percent)，即保留给shuffle数据空间占堆的比例，接着又开始发生坑爹的逻辑了又要把上限设定为Integer.MAX_VALUE了，不过这里我们看出一些端倪，是不是因为原来结构中maxInMemReduce对应的数据类型是int而不是long造成了目前这种奇异的逻辑。这次没有什么方法可以突破这个限制，也就是说当shuffle数据超过2GB后，无论如何调整io.sort.factor和mapreduce.reduce.input.buffer.percent都将使得超过2GB大小的数据写到磁盘上，即使分配了足够的堆空间。

Hadoop Mapreduce 参数（二）的更多相关文章

Hadoop Mapreduce 参数（一）
参考 hadoop权威指南第六章,6.4节背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
使用eclipse的快捷键自动生成的map或者reduce函数的参数中：“org.apache.hadoop.mapreduce.Reducer.Context context”
今天在测试mapreduce的程序时,就是简单的去重,对照课本上的程序和自己的程序,唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context contex ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop（十二）MapReduce概述
前言前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架. 一.背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 ...
Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）
不多说,直接上代码. 一共12列,我们只需提取有用的列:第二列(犯罪类型).第四列(一周的哪一天).第五列(具体时间)和第七列(犯罪场所). 思路分析基于项目的需求,我们通过以下几步完成: 1.首先 ...
Hadoop学习（二） Hadoop配置文件参数详解
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4. etc/hadoop/core-site.xm ...
Hadoop MapReduce编程 API入门系列之join（二十六）（未完）
不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如 ...
Hadoop MapReduce编程 API入门系列之倒排索引（二十四）
不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JV ...

随机推荐

nginx-https错误
连接 ssl.acfun.tv 时发生错误. SSL 接收到一个超出最大准许长度的记录. (错误码: ssl_error_rx_record_too_long) 最后发现,是因为nginx里的配置包含 ...
【liferay】6、关于liferay中使用requestMapping映射地址提交表单
1.接着上一篇博客,从新在定义一下页面 <%@ page contentType="text/html; charset=utf-8" language="java ...
vue 3D小球 loading
<template> <div class="load"> <div class="loadEffect"> <spa ...
odoo开发笔记 -- 用户配置界面如何增加模块访问权限
在odoo设置界面,点击用户,进入用户配置界面,会看到: 访问权 | 个人资料菜单在访问权 page菜单界面,可以看到系统预制的一些模块都会显示在这里, 那么,我们自己开发的模块如何显示在这块呢,从 ...
(转)contextlib — 上下文管理器工具
原文:https://pythoncaff.com/docs/pymotw/contextlib-context-manager-tool/95 这是一篇社区协同翻译的文章,你可以点击右边区块信息里的 ...
什么是编程语言，什么是Python解释器
转自白月黑羽python在线教程:http://www.python3.vip/doc/blog/python/2018071401/ 0基础学Python之1:什么是编程语言,什么是Python解释 ...
vue实现城市列表选择
成果展示最后的成果就是下面所展示的内容,因为gif图没有做,只能截图所展示,接下来,会带着大家一步一步的完成下面功能,脚手架搭建和node安装在本次案例不会讲解,如果了解,可以在我的博客园找到有详细 ...
02 - JavaSE之基础及面向对象（补充）
引用数据类型 java中的数据类型可以分为基本数据类型和引用数据类型两大类 int float char boolean等都是基本数据类型类类型都是引用数据类型引用数据类型类似C语言中的指 ...
Flutter踩坑日记：解除依赖
Flutter已经融入工程有一段时间了,由于团队人数较少,所以一直没有管和原有工程解依赖的问题,今天有时间正好把这个问题给搞了. 一.分析首先,直接忽略上一篇<接入现有iOS项目>的所有 ...
Hibernate进行对象的增删改查
首先我们看看hibernate手动配置步骤 (这个了解一点就可以了,以后是不会自己全部手动配置的) 1. 创建WEB项目 2 下载hibernate-release-4.3.11.F ...