HDP 中 yarn 和 MR2 的配置

以下说明均以集群中 slave 结点的配置为 48G内存，12块硬盘，12核(core) CPU 为例。

在 Yarn 中，一个 Container 是一个基础的包含内存和CPU 的单元。为了较好的平衡利用集群的资源，通常建议每块磁盘和每个core 分配1~2 个 container。所以在上面的配置下，每个结点允许最大配置 20 个 container。

我们给 yarn 分配 40G内存，另外 8G留给操作系统。40G分配给 20 个 container，所以每个 container 分配到 2个G的内存。在 yarn-site.xml 中配置如下：

<property>
　　　　<!-- 总共有多少资源可以被分配 -->

     <name>yarn.nodemanager.resource.memory-mb</name>

     <value></value>

</property>

<property>
　　　　<!-- 分配给AM单个容器可申请的最小内存 -->

     <name>yarn.scheduler.minimum-allocation-mb</name>

     <value></value>

</property>

MapReduce2 运行在 Yarn 之上，利用 container 去安排 Map 和 Reduce 任务，配置 MR2 的资源，需要考虑以下三个方面：

（1）每个 map 和 reduce 任务的物理内存限制

（2）每个任务的 JVM 堆大小

（3）每个任务获得的虚拟内存的总量

每个 map 和 reduce 任务运行在不同的 container 中，因此 Map 和 reduce 最大的内存配置应该等于或大于 yarn.scheduler.minimum-allocation-mb 的值。

在 mapred-site.xml 里配置：

<property>
     <!-- AM 中分配给map Container的内存大小 -->

    <name>mapreduce.map.memory.mb</name>

    <value></value>

</property>

<property>
     <!-- AM 中分配给 reduce container 的内存大小，一般为 map 的两倍 -->

    <name>mapreduce.reduce.memory.mb</name>

    <value></value>

</property>

每个 container 均会开启 JVM ， JVM 的堆大小必须小于上面 Map 和 Reduce 的 memory 的配置。因此在 mapred-site.xml 中加入下面的配置：

<property>

    <name>mapreduce.map.java.opts</name>

    <value>-Xmx3072m</value>

</property>

<property>

    <name>mapreduce.reduce.java.opts</name>

    <value>-Xmx6144m</value>

</property>

上面配置了 Map 和 Reduce 使用的物理内存的上限。map 和 reduce 任务使用的虚拟内存（physical + paged memory）由 yarn container 允许的 ratio 决定。这个ratio 可以在 yarn-site.xml 中进行配置（2.1 是默认值）：

<property>

    <name>yarn.nodemanager.vmem-pmem-ratio</name>

    <value>2.1</value>

</property>

综上所述，每个 map 任务可获得如下的内存分配：

（1）物理 RAM = 4G

（2）map 任务的 container 的 JVM 的堆大小上限 = 3G

（3）虚拟内存上限 = 4*2.1 = 8.4G

总的来说，以 yarn.nodemanager. 开头的配置，配置的是硬件资源相关的东西， yarn.scheduler. 开头的配置，配置的是资源调度相关的，其值不能大于 yarn.nodemanager 中相关的资源限制。

HDP 中 yarn 和 MR2 的配置的更多相关文章

CDH集群中YARN的参数配置
CDH集群中YARN的参数配置前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为MapReduceV2(Yarn)版本,也就是把资源调度和任务分发两 ...
YARN内存使用优化配置
在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考 ...
[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Mem ...
Spark Shuffle 中 JVM 内存使用及配置内幕详情
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified M ...
YARN 多租户资源池配置
简介: YARN 多租户资源池配置当多用户同在一个 hadoop 集群作业时,就需要对资源进行有效的限制,例如区分测试.正式资源等一.查看默认资源池 # 访问:http://192.168.1.2 ...
[转] Spark-Sql On YARN自动调整Executor数配置
在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services添加spark_shuffle值,并设置yarn.nodemanager. ...
在Webpack 5 中如何进行 CSS 常用配置？
本文摘要:主要通过实操讲解运用Webpack 5 CSS常用配置的方法步骤前文已谈到可以通过配置 css-loader 和 style-loader,使 webpack5 具有处理 CSS 资源的能 ...
C#开发中使用配置文件对象简化配置的本地保存
C#开发中使用配置文件对象简化配置的本地保存 0x00 起因程序的核心是数据和逻辑,开发过程中免不了要对操作的数据进行设置,而有些数据在程序执行过程中被用户或程序做出的修改是应该保存下来的,这样程序 ...
CentOS7中防火墙的一些常用配置
# 启动 systemctl start firewalld # 查看状态 systemctl status firewalld # 停止关闭 systemctl disable firewalld ...

随机推荐

【转】Context.getExternalFilesDir()和Context.getExternalCacheDir()方法
应用程序在运行的过程中如果需要向手机上保存数据,一般是把数据保存在SDcard中的.大部分应用是直接在SDCard的根目录下创建一个文件夹,然后把数据保存在该文件夹中.这样当该应用被卸载后,这些数据还 ...
oracle查看表空间和物理文件大小
查看各表空间的使用情况 select a.tablespace_name,a.bytes/1024/1024 "Sum MB",(a.bytes-b.bytes)/1024/102 ...
安装glibc-2.14
下载glibc-2.14.tar.gz 解压: [root@jrgc130 software]# tar xf glibc-2.14.tar.gz [root@jrgc130 software]# c ...
Python特殊语法：filter、map、reduce、lambda
filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决 ...
python：for语句的使用方法
for循环的语法格式: for i in range(n):#从数据类型中拿一个值赋值给i print(i)#打印i 例如: #for for i in range (1,6,2):#从一开始到六之前 ...
在Linux-PC上建立kdump调试环境
kdump就是kernel dump的简称,它是从DDR中直接获取的linux内核数据(系统代码/数据).分析kdump是定位内核panic问题的有效手段之一,同时,通过kdump研究内核数据结构,也 ...
SQLServer中的事物与锁
了解事务和锁事务:保持逻辑数据一致性与可恢复性,必不可少的利器. 锁:多用户访问同一数据库资源时,对访问的先后次序权限管理的一种机制,没有他事务或许将会一塌糊涂,不能保证数据的安全正确读写. 死锁: ...
elasticsearch2.x插件之一：marvel(配置)
Marvel是Elastic公司推出的商业监控方案,是用来监控Elasticsearch集群,历史状态的有力工具,便于性能优化以及故障诊断.监控主要分为六个层面,分别是集群层.节点层.索引层.分片层. ...
c++ 组合模式（composite）
原文地址:http://www.cnblogs.com/jiese/p/3168844.html 当你发现需求中是体现部分与整体层次的结构时,以及你希望用户可以忽略组合对象与单个对象的不同,统一地使用 ...
SqlServer—大话函数依赖与范式
说明:数据库中的某些概念真的很让人头疼,概念的东西本来就是很枯燥的,再加上枯燥的学习,那就更加枯燥了.概念这东西,你不理解也能生产东西,经验多了就行,但是为了更深入的学习,你还必须理解.这里,我抛开书 ...

HDP 中 yarn 和 MR2 的配置

HDP 中 yarn 和 MR2 的配置的更多相关文章

随机推荐

热门专题