CM记录-Hadoop参数调优

1.HDFS调优

a.设置合理的块大小（dfs.block.size）

b.将中间结果目录设置为分布在多个磁盘以提升写入速度（mapred.local.dir）

c.设置DataNode处理RPC的线程数（默认为3），大集群可适当加大点（dfs.datanode.handler.count）

d.设置NameNode能同时处理请求数（dfs.namenode.handler.count）为集群规模的自然对数lnN的20倍

2.YRAN调优

Yarn的资源表示模型Container，Container将资源抽象为两个维度，内存和虚拟CPU核（vcore）

map slot 与 reduce slot,任务槽不能混用，数量一定，不能动态分配资源

Yarn-Container兼容各种计算框架，动态分配资源，减少资源浪费

容器内存-yarn.nodemanager.resource.memory-mb

最小容器内存-yarn.scheduler.minimum-allocation-mb

容器内存增量-yarn.scheduler.increment-allocation-mb

最大容器内存-yarn.scheduler.maximum-allocation-mb

根据实际情况灵活调整，如物理机为128GB，那么容器内存要为100GB

容器虚拟CPU内核yarn.nodemanager.resource.cpu-vcores ---总量要考虑硬件，如双路四核，这里可以设置为10

最小容器虚拟CPU内核数量yarn.scheduler.minimum-allocation-vcores

容器虚拟CPU内核增量yarn.scheduler.increment-allocation-vcores

最大容器虚拟CPU内核数量yarn.scheduler.maximum-allocation-vcores

3.MapReduce调优

调优三大原则

a.增大作业并行程度---改变输入分片（input spilt）的大小，输入分片是个逻辑概念，是一个map Task的输入。在调优过程中，尽量让输入分片与块大小一样，这样就能实现计算本地化，减少不必要的网络传输。

计算公式为max(mapred.min.spilt.size,min(mapred.max.spilt.size,dfs.block.size))

mapred.min.spilt.size=1 ---最小分片大小

mapred.max.split.size=9223372036854775807 ---最大分片大小

dfs.block.size为块大小

b.给每个任务足够的资源

Map任务内存：mapreduce.map.memory.mb

Reduce任务内存：mapreduce.reduce.memory.mb

Map任务最大堆栈：mapreduce.map.java.opts.max.heap

Reduce任务最大堆栈：mapreduce.reduce.java.opts.max.heap

ApplicationMaster内存：yarn.app.mapreduce.am.resource.mb

c.在满足前两个条件下，尽可能地给shuffle(数据混洗-输入到输出整个过程)预留资源

最大洗牌连接：mapreduce.shuffle.max.connections

I/O排序内存缓存（MiB）：mapreduce.task.io.sort.mb

I/O排序因子：mapreduce.task.io.sort.factor

洗牌期间并行传输的默认数量：mapreduce.reduce.shuffle.parallelcopies

压缩Map输出：mapreduce.map.output.compress

备注：其他调优参数参考官网hadoop默认配置，hadoop调优要深刻理解mapreduce

CM记录-Hadoop参数调优的更多相关文章

hadoop 参数调优重点参数
yarn的参数调优,必调参数 28>.yarn.nodemanager.resource.memory-mb 默认为8192.每个节点可分配多少物理内存给YARN使用,考虑到节点上还可能有其 ...
七、Hadoop学习笔记————调优之Hadoop参数调优
dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比如果服务器物理内存128G,则容器内存建议为100比较合理配置总量时考虑系统 ...
Hadoop参数调优
转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接 ...
emr hadoop 参数调优
set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; ; ; set hive.exec.compress.intermedia ...
hadoop 性能调优与运维
hadoop 性能调优与运维 . 硬件选择 . 操作系统调优与jvm调优 . hadoop运维硬件选择 1) hadoop运行环境 2) 原则一: 主节点可靠性要好于从节点原则二:多路多核,高频 ...
hadoop作业调优参数整理及原理(转)
1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘.这中间的过程比较复杂,并且利用到了内 ...
hadoop作业调优参数整理及原理【转】
1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘.这中间的过程比较复杂,并且利用到了内 ...
Hbase记录-client访问zookeeper大量断开以及参数调优分析（转载）
1.hbase client配置参数超时时间.重试次数.重试时间间隔的配置也比较重要,因为默认的配置的值都较大,如果出现hbase集群或者RegionServer以及ZK关掉,则对应用程序是灾难性的 ...
hadoop作业调优参数整理及原理
hadoop作业调优参数整理及原理 10/22. 2013 1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并 ...

随机推荐

opencv学习笔记（二）
摘要:学习资料主要参考于毛星云主编<opencv3编程入门> 1.图像显示 #include<opencv2/opencv.hpp> using namespace cv; / ...
Docker attach
Description Attach local standard input, output, and error streams to a running container Usage dock ...
Setting Tomcat Heap Size (JVM Heap) in Eclipse
this article picked from:http://viralpatel.net/blogs/setting-tomcat-heap-size-jvm-heap-eclipse/ Rece ...
Notepad++ 大小写转换
code_field_text 普通文本 code_field_user_id 用户ID code_field_customer_id 客户ID code_field_dict 数据字典 code_f ...
Centos7 yum安装Chrome浏览器
一.创建yum源文件 cd /etc/yum.repo.d/ touch google-chrome.repo 二.输入yum源信息 [google-chrome] name=google-chrom ...
微信小程序开发3之保存数据及页面跳转
第一保存本地数据 1.异步保存本地数据 wx.setStorage({ key:keyStr, data:dataStr, success: function(e){}, fail: functi ...
SOC四大弱点分析
导读今年的年度安全运营中心(SOC)调查中,SANS研究所指出了4个最为常见的SOC弱点.这些弱点的根源可被追溯到我们非常熟悉的人.过程.适度规划和技术实现上.下面我们就来看看SOC的四大弱点究竟是 ...
python---random模块详解
在python中用于生成随机数的模块是random,在使用前需要import, 下面看下它的用法. random.random random.random()用于生成一个0到1的随机符点数: 0 &l ...
BZOJ4516 SDOI2016生成魔咒（后缀数组+平衡树）
一个字符串本质不同的子串数量显然是总子串数减去所有height值.如果一个个往里加字符的话,每次都会改动所有后缀完全没法做.但发现如果从后往前加的话,每次只会添加一个后缀.于是我们把字符串倒过来,每次 ...
获取外网出口ip
curl ifconfig.me 或 curl cip.cc

CM记录-Hadoop参数调优

CM记录-Hadoop参数调优的更多相关文章

随机推荐

热门专题