1.HDFS调优

a.设置合理的块大小(dfs.block.size)

b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir)

c.设置DataNode处理RPC的线程数(默认为3),大集群可适当加大点(dfs.datanode.handler.count)

d.设置NameNode能同时处理请求数(dfs.namenode.handler.count)为集群规模的自然对数lnN的20倍

2.YRAN调优

Yarn的资源表示模型Container,Container将资源抽象为两个维度,内存和虚拟CPU核(vcore)

map slot 与 reduce slot,任务槽不能混用,数量一定,不能动态分配资源

Yarn-Container兼容各种计算框架,动态分配资源,减少资源浪费

容器内存-yarn.nodemanager.resource.memory-mb

最小容器内存-yarn.scheduler.minimum-allocation-mb

容器内存增量-yarn.scheduler.increment-allocation-mb

最大容器内存-yarn.scheduler.maximum-allocation-mb

根据实际情况灵活调整,如物理机为128GB,那么容器内存要为100GB

容器虚拟CPU内核yarn.nodemanager.resource.cpu-vcores  ---总量要考虑硬件,如双路四核,这里可以设置为10

最小容器虚拟CPU内核数量yarn.scheduler.minimum-allocation-vcores

容器虚拟CPU内核增量yarn.scheduler.increment-allocation-vcores

最大容器虚拟CPU内核数量yarn.scheduler.maximum-allocation-vcores

3.MapReduce调优

调优三大原则

a.增大作业并行程度---改变输入分片(input spilt)的大小,输入分片是个逻辑概念,是一个map Task的输入。在调优过程中,尽量让输入分片与块大小一样,这样就能实现计算本地化,减少不必要的网络传输。

计算公式为max(mapred.min.spilt.size,min(mapred.max.spilt.size,dfs.block.size))

mapred.min.spilt.size=1    ---最小分片大小

mapred.max.split.size=9223372036854775807   ---最大分片大小

dfs.block.size为块大小

b.给每个任务足够的资源

Map任务内存:mapreduce.map.memory.mb

Reduce任务内存:mapreduce.reduce.memory.mb

Map任务最大堆栈:mapreduce.map.java.opts.max.heap

Reduce任务最大堆栈:mapreduce.reduce.java.opts.max.heap

ApplicationMaster内存:yarn.app.mapreduce.am.resource.mb

c.在满足前两个条件下,尽可能地给shuffle(数据混洗-输入到输出整个过程)预留资源

最大洗牌连接:mapreduce.shuffle.max.connections

I/O排序内存缓存(MiB):mapreduce.task.io.sort.mb

I/O排序因子:mapreduce.task.io.sort.factor

洗牌期间并行传输的默认数量:mapreduce.reduce.shuffle.parallelcopies

压缩Map输出:mapreduce.map.output.compress

备注:其他调优参数参考官网hadoop默认配置,hadoop调优要深刻理解mapreduce

CM记录-Hadoop参数调优的更多相关文章

  1. hadoop 参数调优重点参数

    yarn的参数调优,必调参数 28>.yarn.nodemanager.resource.memory-mb  默认为8192.每个节点可分配多少物理内存给YARN使用,考虑到节点上还 可能有其 ...

  2. 七、Hadoop学习笔记————调优之Hadoop参数调优

    dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比 如果服务器物理内存128G,则容器内存建议为100比较合理 配置总量时考虑系统 ...

  3. Hadoop参数调优

    转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接 ...

  4. emr hadoop 参数调优

    set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; ; ; set hive.exec.compress.intermedia ...

  5. hadoop 性能调优与运维

    hadoop 性能调优与运维 . 硬件选择 . 操作系统调优与jvm调优 . hadoop运维 硬件选择 1) hadoop运行环境 2)  原则一: 主节点可靠性要好于从节点 原则二:多路多核,高频 ...

  6. hadoop作业调优参数整理及原理(转)

    1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘.这中间的过程比较复杂,并且利用到了内 ...

  7. hadoop作业调优参数整理及原理【转】

    1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘.这中间的过程比较复杂,并且利用到了内 ...

  8. Hbase记录-client访问zookeeper大量断开以及参数调优分析(转载)

    1.hbase client配置参数 超时时间.重试次数.重试时间间隔的配置也比较重要,因为默认的配置的值都较大,如果出现hbase集群或者RegionServer以及ZK关掉,则对应用程序是灾难性的 ...

  9. hadoop作业调优参数整理及原理

    hadoop作业调优参数整理及原理 10/22. 2013 1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并 ...

随机推荐

  1. Visual Studio 2017 社区版的安装与组件修改(C++)

    0. 环境描述 需求:用VS2017做C++简易开发. 操作系统:Windows 8.1. 1. 下载 MSDN下载VS2017社区版. https://msdn.itellyou.cn/ 下载后: ...

  2. CodeIgniter中使用base_url()时显示http://::1/ci/

    URL 辅助函数文件包含了一些帮助你处理 URL 的函数. 加载辅助函数后,你可以使用base_url(),site_url(),current_url()等一些列函数,但是有时候你会遇到这种问题,就 ...

  3. TCP的TIME_WAIT

    http://www.cnblogs.com/dadonggg/p/8778318.html http://www.firefoxbug.com/index.php/archives/2795/ ht ...

  4. Cron Expression的用途

    对于一些MIS系统,DeadLine,需要用户自己制定事件规则,Cron Expression应该可以派上用场. Cron Maker: http://www.cronmaker.com/

  5. Vue的router使用

    <div id="app"> <router-link to="/home">home</router-link> < ...

  6. SQLSERVER 2014 SP1 的服务器 日志文件无法收缩的处理

    1. 公司一台服务器 日子会文件到了 100g+ 但是无法收缩 2. 根据同事的经验进行验证 dbcc loginfo 单独看改数据库的 dbcc loginfo("CWBASEGS60&q ...

  7. zookeeper和kafka的安装

    一.安装zookeeper yum install -y java ##安装jdk1.6版本以上 wget http://mirror.bit.edu.cn/apache/zookeeper/zook ...

  8. BZOJ2794[Poi2012]Cloakroom——离线+背包

    题目描述 有n件物品,每件物品有三个属性a[i], b[i], c[i] (a[i]<b[i]).再给出q个询问,每个询问由非负整数m, k, s组成,问是否能够选出某些物品使得:1. 对于每个 ...

  9. Uva1001-floyd算法-建图

    给出一些球,球内的时间为零,球之间的速度为10每单位. 给两个点,求最短时间. 把每一个球当做点,球间的距离就是floyd的d数组.之后跑一遍floyd wa了两发因为d数组定义成int了 #incl ...

  10. BZOJ5294 [BJOI2018] 二进制 【线段树】

    BJOI的题目感觉有点难写 题目分析: 首先推一波结论.接下来的一切都在模3意义下 现在我们将二进制位重组,不难发现的是2^0≡1,2^1≡2,2^2≡1,2^3≡2....所以我们考虑这样的式子 2 ...