hadoop mapreduce 端参数优化

在MapReduce执行过程中，特别是Shuffle阶段，尽量使用内存缓冲区存储数据，减少磁盘溢写次数；同时在作业执行过程中增加并行度，都能够显著提高系统性能，这也是配置优化的一个重要依据。

下面分别介绍I/O属性和MapReduce属性这两个类的部分属性，并指明其优化方向。

1 I/O属性类的优化

I/O属性类主要包括在Shuffle阶段中相关的I/O过程的属性，在分析了每个具体属性后从以下几个属性入手进行优化。

(1) io.sort.factor属性，int类型，Map端和Reduce端使用

该属性设置在Map端和Reduce端都使用到的对文件Sort时一次合并的最大流，其默认值是10，即一次合并10个流。在集群中，将其适当增大能够提高并行度以缩短合并所需时间。将此默认值增加到100是比较常见的。

(2) io.sort.mb属性，int类型，Map端使用

该属性设置对Map输出进行排序时使用的环形内存缓冲区的大小，以M字节为单位，默认是100M。如果允许，应该增加它的值来减少磁盘溢写的次数以提高性能。

(3) io.sort.record.percent属性，float类型，Map端使用

该属性设置保留的io.sort.mb的比例用来存储Map输出的记录边界，剩余的空间用来存储Map输出记录本身，默认是0.05。

(4) io.sort.spill.percent属性，float类型，Map端使用

该属性设置Map输出内存缓冲和边界记录索引两者使用比例的阈值，达到此值后开始溢写磁盘的过程，默认是0.80。

(5) io.file.buffer.size属性，int类型，MapReduce作业使用

该属性设置MapReduce作业的I/O操作中所提供的缓冲区的大小，以字节为单位，默认是4096字节。这是一个比较保守的设置，通过增大它的大小能够减少I/O次数以提高性能。如果系统允许，64KB（65536字节）至128KB（131072字节）是较普遍的选择。

2 MapReduce属性类的优化

MapReduce属性类主要包括在MapReduce执行过程中相关配置属性，重点从以下的部分属性去分析性能优化。

(1) mapred.reduce.parallel.copies属性，int类型，Reduce端使用

该属性设置将Map输出复制到Reduce的线程的数量，默认为5。根据需要可以将其增大到20-50，增加了Reduce端复制过程的并行数，提高了系统性能。

(2) mapred.child.java.opts属性，String类型，Map和Reduce任务虚拟机使用

该属性设置Map和Reduce任务运行时Java虚拟机指定的内存的大小，默认-Xmx200m，分配给每个任务200MB内存。只要条件允许，应该让任务节点上的内存大小尽量大，可以将其增大到-Xmx512m，即512MB，以提高MapReduce作业的性能。

(3) mapred.job.shuffle.input.buffer.percent属性，float类型，Reduce端使用

该属性设置整个堆空间的百分比，用于Shuffle的复制阶段分配给Map输出缓存，默认是0.70，适当增大比例可以使Map输出不被溢写到磁盘，能够提高系统性能。

(4) mapred.job.shuffle.merge.percent属性，float类型，Reduce端使用

该属性设置Map输出缓存中使用比例的阈值，用于启动合并输出和磁盘溢写的过程，默认是0.66。如果允许，适当增大其比例能够减少磁盘溢写次数，提高系统性能。

(5) mapred.inmem.merge.threshold属性，int类型，Reduce端使用

该属性设置启动合并输出和磁盘溢写过程的最大Map输出数量，默认为1000。由于Reduce端复制的中间值能够全部存在内存中可以获得最佳性能。如果Reduce函数内存需求很少，可以将该属性设置为0，即没有阈值限制，由mapred.job.shuffle.merge.percent属性单独控制溢写过程。

(6) mapred.job.reduce.input.buffer.percent属性，float类型，Reduce端使用

该属性设置在Reduce过程中用来在内存中保存Map输出的空间占整个堆空间的比例。Reduce阶段开始时，内存中的Map输出大小不能大于这个值。默认为0.0，说明在Reduce开始前所有的Map输出都合并到硬盘中以便为Reduce提供尽可能多的内存。然而如果Reduce函数内存需求较小，可以将该值设置为1.0来提升性能。

(7) tasktracker.http.threads属性，int类型，Map端使用

该属性设置集群中每个tasktracker用于将map输出传给reducer的工作线程的数量，默认是40。可以将其提高至40-50之间，能够增加并线线程数，提高集群性能。

调整mapred-site.xml文件，增加JVM的重用次数：
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>50</value>
</property>
将所有配置文件统一，重新启动JobTracker进程与所有TaskTracker进程。

设置了jvm复用，即一个job内，多个task共享jvm，避免多次启动jvm，浪费资源和时间。提高运行效率，减少JOB执行的时间。

hadoop mapreduce 端参数优化的更多相关文章

【Hadoop离线基础总结】MapReduce参数优化
MapReduce参数优化资源相关参数这些参数都需要在mapred-site.xml中配置 mapreduce.map.memory.mb 一个 MapTask 可使用的资源上限(单位:MB),默 ...
Hadoop参数优化
dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.spec ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
Hadoop Mapreduce 参数（一）
参考 hadoop权威指南第六章,6.4节背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来 ...
使用eclipse的快捷键自动生成的map或者reduce函数的参数中：“org.apache.hadoop.mapreduce.Reducer.Context context”
今天在测试mapreduce的程序时,就是简单的去重,对照课本上的程序和自己的程序,唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context contex ...
hadoop YARN配置参数剖析—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中 ...
Hadoop YARN配置参数剖析(3)—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中 ...
hadoop MapReduce - 从作业、任务（task）、管理员角度调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 一应用程序编写规范 1.设置Combiner 对于一大批MapReduce ...
【Big Data - Hadoop - MapReduce】通过腾讯shuffle部署对shuffle过程进行详解
摘要: 通过腾讯shuffle部署对shuffle过程进行详解摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都 ...

随机推荐

Oracle数据库之PL/SQL程序设计基础
PL/SQL程序设计基础一.PL/SQL块结构前边我们已经介绍了PL/SQL块的结构,再来回顾一下: DECLARE /* * 声明部分——定义常量.变量.复杂数据类型.游标.用户自定义异常 */ ...
Microsoft Anti-Cross Site Scripting Library V4.2 下载地址
概述微软反跨站脚本库V4.2(AntiXSS V4.2)是一种编码库,旨在帮助开发人员保护他们的ASP.NET基于Web的应用程序免受XSS攻击.它不同于编码库,因为它使用的白名单技术-有时也被称为 ...
Js自动截取字符串长度，添加省略号“……”
JavaScript字符串处理函数,根据定义的长度截取字符串,超出部分裁掉追加……,很多时候网页上显示的内容需要缩成“...”该方法用于处理字符串显示固定长度,超长部分用“...”代替: /**参数说 ...
twisted(2)--聊天系统
我们今天要做一个聊天系统,这样可以和我们之前flask api那系列文章结合起来:其次,聊天系统最能代表tcpserver,以后可以套用各种模型,比如我们公司做的物联网,其实就是把聊天系统简化一下. ...
Python3 如何优雅地使用正则表达式（详解六）
修改字符串我们已经介绍完如何对字符进行搜索,接下来我们讲讲正则表达式如何修改字符串. 正则表达式使用以下方法修改字符串: 方法用途 split() 在正则表达式匹配的地方进行分割,并返回一个列表 ...
PE文件结构整理
一直想做一个PE结构的总结,只是学的时候有很多东西就没搞懂,加上时间一长,很多知识也早忘了,也就一直没完成.这几天从头看了下,好不容易理清楚了,整理一下,以免又忘了 pe文件框架结构,图片贴过来太模糊 ...
d029: 求出2－100之间的所有质数（素数）
内容: 求出2-100之间的所有质数(素数) 输入说明: 无输出说明: 一行一个素数 /* 质数又称素数.指在一个大于1的自然数中,除了1和此整数自身外,不能被其他自然数(不包括0)整除的数. */ ...
ios对SQLite3的使用
ios对SQLite3的使用一.在Firefox中打开sqlite3(如果没有,选择工具->附加组件,添加即可)新建sqlite3数据库,Contacts, 建立一个members表,字段 i ...
IE6/IE7不识别display:inline-block属性怎么办
ie6,ie7的haslayout属性是个让人头疼的问题.在做导航条的时候,一般会用到ul li结构,大多数时候我们是把li设置为浮动,让其并排显示在同一行.还有一种方法就是设置li为display: ...
adb :unknown host service
adb 没法重启现象:C:\Users\John>adb shell adb server is out of date. killing... ...

hadoop mapreduce 端参数优化

hadoop mapreduce 端参数优化的更多相关文章

随机推荐

热门专题