Hadoop JVM调整解决 MapReduce 作业超时问题

摘要：由于业务需要，在mapreduce汇总时需要关联两个基础表，一个60M左右，不影响mr运行，另一个表，大小约为380M，行数为1700万行左右，在默认配置下，一旦加载这个数据就会在reduce阶段卡住最后报超时错误，经过jvm的调整，终于解决了mr汇总的问题，这里简单总结下，回头有时间再详细看下集群调优。

MR汇总报错

在mr程序跑job时，reduce到一个点就卡住直到超时时间反馈超时再重试，一般都失败，如下图：

超时时间是在配置文件的默认配置：

这里的提示是Container killed by the ApplicationMaster,并没有具体参数提示。查找一些资料后发现，需要调整opts的值mapreduce.reduce.java.opts，默认4G，调试为6G测试，即值为"-Djava.net.preferIPv4Stack=true -Xmx6442450944" ,报错如下：

Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical memory limits. Current usage: 2.1 GB of 2 GB physical memory used; 2.7 GB of 4.2 GB virtual memory used. Killing container.

这里的错误就比较明显了，物理内存不够，虚拟内存还可以(默认情况下：虚拟内存是物理内存的2.1倍)。这里是在reduce阶段有问题，所以需要调整reduce运行时的物理内存，mapreduce.reduce.memory.mb这个参数默认值为4G，调整为6144 (即6G)后，执行mr作业，正常结束。

总结了如下相关jvm设置:

参数默认值描述

yarn.scheduler.minimum-allocation-mb 1024 每个container请求的最低jvm配置，单位m。如果请求的内存小于该值，那么会重新设置为该值。

yarn.scheduler.maximum-allocation-mb 8192 每个container请求的最高jvm配置，单位m。如果大于该值，会被重新设置。

yarn.nodemanager.resource.memory-mb 8192 每个nodemanager节点准备最高内存配置，单位m

mapreduce.{map,reduce}.memory.mb 1024 设置运行map/reduce container的内存大小，单位m

mapreduce.{map,reduce}.java.opts -Xmx 设置执行map/reduce任务的JVM参数,值小于上一行设置的值，是在container中建立的jvm堆内存

mapreduce.map.memory.mb = (1~2倍) * yarn.scheduler.minimum-allocation-mb

mapreduce.reduce.memory.mb = (1~4倍) * yarn.scheduler.minimum-allocation-mb

总结：最终运行参数给定的jvm堆大小必须小于参数指定的map和reduce的memory大小，最好为70%以下。

Hadoop JVM调整解决 MapReduce 作业超时问题的更多相关文章

使用MRUnit，Mockito和PowerMock进行Hadoop MapReduce作业的单元测试
0.preliminary 环境搭建 Setup development environment Download the latest version of MRUnit jar from Apac ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
hadoop 学习笔记：mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop学习笔记：MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
[大牛翻译系列]Hadoop（17）MapReduce 文件处理：小文件
5.1 小文件大数据这个概念似乎意味着处理GB级乃至更大的文件.实际上大数据可以是大量的小文件.比如说,日志文件通常增长到MB级时就会存档.这一节中将介绍在HDFS中有效地处理小文件的技术. 技术2 ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop（六）MapReduce的入门与运行原理
一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架: Mapreduce核心功能是将用 ...
高阶MapReduce_1_链接多个MapReduce作业
链接MapReduce作业 1. 顺序链接MapReduce作业顺序链接MapReduce作业就是将多个MapReduce作业作为生成的一个自己主动化运行序列,将上一个MapReduce作 ...
hadoop（四）MapReduce
如果将 Hadoop 比做一头大象,那么 MapReduce 就是那头大象的电脑.MapReduce 是 Hadoop 核心编程模型.在 Hadoop 中,数据处理核心就是 MapReduce 程序设 ...

随机推荐

使用ant build build.xml报“includeantruntime was not set”警告及"Class not found: javac1.8"问题
问题1:ant编译build.xml报“includeantruntime was not set”警告. 警告详情: warning: 'includeantruntime' was not set ...
洛谷2017 5月月赛R1
我只想说面对这种难度的题目就是冲着20%的数据暴力... 分数:40+20+36.1+38+0+19 T1 签到题 III 题目背景 pj组选手zzq近日学会了求最大公约数的辗转相除法. 题目描述类 ...
安装nginx的一些注意事项
1.如何彻底屏蔽掉Nginx的banner 为了安全或者某些个人的原因,如果要屏蔽掉nginx的banner,要修改以下几个位置: src/http/ngx_http_header_filter_mo ...
php同时查询两个表的数据
业务环境,表一会员等级表, 表二会员表, 有一个字段是相同的会员等级ID level 在会员的显示页面要直接显示会员的会员等级名称,不是等级ID. 1．同时查询两个表 2．表设置别名, selec ...
简单修改BOOK主题样式
body{ font-size: 13px; font-family: Verdana, Geneva, Arial, Helvetica, sans-serif; margin: 0px; word ...
推荐一个高大上的网易云音乐命令行播放工具：musicbox
网易云音乐上有很多适合程序猿的歌单,但是今天文章介绍的不是这些适合程序员工作时听的歌,而是一个用Python开发的开源播放器,专门适用于网易云音乐的播放.这个播放器的名称为MusicBox, 特色是用 ...
MongoDB最简单的入门教程之五-通过Restful API访问MongoDB
通过前面四篇的学习,我们已经在本地安装了一个MongoDB数据库,并且通过一个简单的Spring boot应用的单元测试,插入了几条记录到MongoDB中,并通过MongoDB Compass查看到了 ...
javaee 第14周
1.web server Web Server中文名称叫网页服务器或web服务器.WEB服务器也称为WWW(WORLD WIDE WEB)服务器,主要功能是提供网上信息浏览服务.Web服务器可以解析( ...
（转）Spring4.2.5+Hibernate4.3.11+Struts1.3.8集成方案二
http://blog.csdn.net/yerenyuan_pku/article/details/52894958 前面我们已经集成了Spring4.2.5+Hibernate4.3.11+Str ...
strict说明

Hadoop JVM调整解决 MapReduce 作业超时问题

MR汇总报错

Hadoop JVM调整解决 MapReduce 作业超时问题的更多相关文章

随机推荐

热门专题