CDH集群中YARN的参数配置
CDH集群中YARN的参数配置
前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为MapReduceV2(Yarn)版本,也就是把资源调度和任务分发两块分离开来。而在最新的CDH版本中,同时集成了MapReduceV1和MapReduceV2(Yarn)两个版本,如果集群中需要使用Yarn做统一的资源调度,建议使用Yarn。
CDH对Yarn的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了CDH中相比 MapReduceV1一些参数改动的配置。
一、CPU配置
ApplicationMaster 虚拟 CPU 内核
yarn.app.mapreduce.am.resource.cpu-vcores // ApplicationMaster占用的cpu内核数(Gateway--资源管理 )
容器虚拟 CPU 内核
yarn.nodemanager.resource.cpu-vcores //单 个NodeManager 最大能分配的cpu核数 (NodeManager --资源管理 )
结论:当前 nodemanager 申请的 ApplicationMaster数总 和小于 nodemanager最大cpu内核数
二、内存配置
容器内存
yarn.nodemanager.resource.memory-mb //单个NodeManager能分配的最大内存(NodeManager --资源管理) //Memory Total = 单个NodeManager内存 * 节点数
结论:提交任务占用内存Memory Used 小于Memory Total
Map 任务内存
mapreduce.map.memory.mb //为作业的每个 Map 任务分配的物理内存量 (Gateway--资源管理 )
结论:map或reduce的内存需求不大于appmaster的内存需求
最大容器内存
yarn.scheduler.maximum-allocation-mb //单个任务可申请最大内存 (ResourceManager--资源管理 )
三、同一个Map或者Reduce 并行执行
Map 任务推理执行
mapreduce.map.speculative //Gateway
Reduce 任务推理执行
mapreduce.reduce.speculative //Gateway
四、JVM重用
启用 Ubertask 优化 :
mapreduce.job.ubertask.enable | (默认false) //true则表示启用jvm重用(Gateway--性能 )
jvm重用的决定参数如下:
Ubertask 最大 Map
mapreduce.job.ubertask.maxmaps //超过多少个map启用jvm重用(Gateway--性能)
Ubertask 最大 Reduce
mapreduce.job.ubertask.maxreduces //超过多少 Reduce 启用jvm重用,目前支持1个 (Gateway--性能)
Ubertask 最大作业大小
mapreduce.job.ubertask.maxbytes //application的输入大小的阀值,默认为 block大小(Gateway--性能)
五、其他参数
给spark加日志编辑 spark-defaults.conf
spark.yarn.historyServer.address=http://cloud003:18080/
CDH集群中YARN的参数配置的更多相关文章
- 使用Cloudrea Manager在CDH集群中添加kafka服务节点,更改borker.id配置后无法启动
需要保证meta.properties文件中的broker.id和cloudrea manager的web页面上kafka配置的broker.id一致,最好让server.properties中的br ...
- CentOS7安装CDH 第七章:CDH集群Hadoop的HA配置
相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...
- 集群中配置多台计算机之间ssh无密码登录的一种简便方法
当我们在配置多台计算,使之可以相互使用无密码登录-ssh,之前都是一台一台的配置,现在一台A上添加B,然后在另一台B上再次添加A,这样使得 authorized_keys中的内容相同,但时并不是完全相 ...
- 在Kubernetes集群中使用calico做网络驱动的配置方法
参考calico官网:http://docs.projectcalico.org/v2.0/getting-started/kubernetes/installation/hosted/kubeadm ...
- 一:MetaMq集群中单个节点的安装配置示意图
MetaMQ集群一个节点的安装和配置示意图[1]:下载metaMQ的安装包
- 集群中配置多台机器之间 SSH 免密码登录
集群中配置多台机器之间 SSH 免密码登录 问题描述 由于现在项目大多数由传统的单台机器部署,慢慢转变成多机器的集群化部署. 但是,这就涉及到机器间的 SSH 免密码互通问题. 当集群机器比较多的时候 ...
- MySql集群FAQ----mysql主从配置与集群区别、集群中需要多少台计算机呢?为什么? 等
抽取一部分显示在这里,如下, What's the difference in using Clustervs using replication? 在复制系统中,一个MySQL主服务器会更新一个或多 ...
- 为什么zookeeper集群中节点配置个数是奇数个?
Zookeeper的大部分操作都是通过选举产生的.比如,标记一个写是否成功是要在超过一半节点发送写请求成功时才认为有效.同样,Zookeeper选择领导者节点也是在超过一半节点同意时才有效.最后,Zo ...
- CDH集群安装&测试总结
0.绪论 之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的: 当我搭建的过程中,发现这些东西是 ...
随机推荐
- IPv6应用普及,任重而道远
导读 2018年初开始,全国尤其是运营商网络开启了IPv6改造的大幕,很多企业都从工信部领到了军令状,要将IPv6改造工作彻底落实下去.现在2018年已接近尾声,回头看看实际部署情况如何. IPv6涉 ...
- 腾讯云 Ubuntu16.04 搭建Git 服务
一.安装Git服务器所需软件 1.安装git-core, openssh-server, openssh-client三个软件.git-core是git的核心软件: openssh-server.op ...
- CenOS_6.6_简单搭建vsFTP
0. 关闭selinux 永久性关闭(这样需要重启服务器后生效) sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config ...
- C# TreeView 连续点击 不触发AfterCheck事件
创建一个类 TreeView2 namespace System.Windows.Forms { public class TreeView2 : TreeView { protected overr ...
- linux screen 命令 :离线运行程序
screen工具是linux下虚拟终端的一个常用工具.在 发现这个工具之前,笔者经常在远程ssh中运行需要长时间处理数据的命令,比如远程编译安装软件,如果在编译的过程中网络断开,那这个编译进程就会停止 ...
- python assert用法
使用assert断言是学习python一个非常好的习惯,python assert 断言句语格式及用法很简单.在没完善一个程序之前,我们不知道程序在哪里会出错,与其让它在运行最崩溃,不如在出现错误条件 ...
- 震惊!1MB == 1000KB??
稍微对电脑了解一点的同学可能都知道,电脑中的单位换算是: 1KB = 1024B 1MB = 1024KB 1GB = 1024MB ... 以前,我也是这么认为的.... 最近我在Linux解压某个 ...
- Looper Handler Mssage
1. 一个Handler只有一个队列;2. 在调用Handler.post(Runnable runnable)方法时,会将runnable封装成一个Message;3. 在队列执行时,会判断当前的M ...
- SDL源码阅读笔记(1) 基本模块
write by 九天雁翎(JTianLing) -- blog.csdn.net/vagrxie 前言 对于大牛来说,写关于阅读源码的文章都会叫源码剖析或者深入浅出啥的,对于我,自己阅读阅读源码,写 ...
- 迅雷thunder://协议解密
echo -n 'thunder://''Cg==' | sed 's?thunder://??' | base64 -d | sed 's/^AA//; s/ZZ$//' 将thunder://替换 ...