MapReduce任务参数调优(转)
http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/
本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。
Hadoop的默认配置文件(以cdh5.0.1为例):
说明:
在hadoop2中有些参数名称过时了,例如原来的
mapred.reduce.tasks改名为mapreduce.job.reduces了,当然,这两个参数你都可以使用,只是第一个参数过时了。
1. 操作系统调优
- 增大打开文件数据和网络连接上限,调整内核参数
net.core.somaxconn,提高读写速度和网络带宽使用率 - 适当调整
epoll的文件描述符上限,提高Hadoop RPC并发 关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率- 增加
预读缓存区大小。预读可以减少磁盘寻道次数和I/O等待时间 - 设置
openfile
2. Hdfs参数调优
2.1 core-default.xml:
hadoop.tmp.dir:
- 默认值: /tmp
- 说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
fs.trash.interval:
- 默认值: 0
- 说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。
io.file.buffer.size:
- 默认值:4096
- 说明:SequenceFiles在读写中可以使用的缓存大小,可减少 I/O 次数。在大型的 Hadoop cluster,建议可设定为 65536 到 131072。
2.2 hdfs-default.xml:
dfs.blocksize:
- 默认值:134217728
- 说明: 这个就是hdfs里一个文件块的大小了,CDH5中默认128M。太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。根据需要进行设置。
dfs.namenode.handler.count:
- 默认值:10
- 说明:设定 namenode server threads 的数量,这些 threads 會用 RPC 跟其他的 datanodes 沟通。当 datanodes 数量太多时会发現很容易出現 RPC timeout,解決方法是提升网络速度或提高这个值,但要注意的是 thread 数量多也表示 namenode 消耗的内存也随着增加
3. MapReduce参数调优
包括以下节点:
- 合理设置槽位数目
- 调整心跳配置
- 磁盘块配置
- 设置RPC和线程数目
- 启用批量任务调度
3.1 mapred-default.xml:
mapred.reduce.tasks(mapreduce.job.reduces):
- 默认值:1
- 说明:默认启动的reduce数。通过该参数可以手动修改reduce的个数。
mapreduce.task.io.sort.factor:
- 默认值:10
- 说明:Reduce Task中合并小文件时,一次合并的文件数据,每次合并的时候选择最小的前10进行合并。
mapreduce.task.io.sort.mb:
- 默认值:100
- 说明: Map Task缓冲区所占内存大小。
mapred.child.java.opts:
- 默认值:-Xmx200m
- 说明:jvm启动的子线程可以使用的最大内存。建议值
-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@taskid@.gc
mapreduce.jobtracker.handler.count:
- 默认值:10
- 说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。
mapreduce.reduce.shuffle.parallelcopies:
- 默认值:5
- 说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。
mapreduce.tasktracker.http.threads:
- 默认值:40
- 说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。
mapreduce.map.output.compress:
- 默认值:false
- 说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽。配合 mapreduce.map.output.compress.codec使用,默认是 org.apache.hadoop.io.compress.DefaultCodec,可以根据需要设定数据压缩方式。
mapreduce.reduce.shuffle.merge.percent:
- 默认值: 0.66
- 说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。
mapreduce.reduce.shuffle.memory.limit.percent:
- 默认值: 0.25
- 说明:一个单一的shuffle的最大内存使用限制。
mapreduce.jobtracker.handler.count:
- 默认值: 10
- 说明:可并发处理来自tasktracker的RPC请求数,默认值10。
mapred.job.reuse.jvm.num.tasks(mapreduce.job.jvm.numtasks):
- 默认值: 1
- 说明:一个jvm可连续启动多个同类型任务,默认值1,若为-1表示不受限制。
mapreduce.tasktracker.tasks.reduce.maximum:
- 默认值: 2
- 说明:一个tasktracker并发执行的reduce数,建议为cpu核数
4. 系统优化
4.1 避免排序
对于一些不需要排序的应用,比如hash join或者limit n,可以将排序变为可选环节,这样可以带来一些好处:
- 在Map Collect阶段,不再需要同时比较partition和key,只需要比较partition,并可以使用更快的计数排序(O(n))代替快速排序(O(NlgN))
- 在Map Combine阶段,不再需要进行归并排序,只需要按照字节合并数据块即可。
- 去掉排序之后,Shuffle和Reduce可同时进行,这样就消除了Reduce Task的屏障(所有数据拷贝完成之后才能执行reduce()函数)。
4.2 Shuffle阶段内部优化
- Map端--用Netty代替Jetty
- Reduce端--批拷贝
- 将Shuffle阶段从Reduce Task中独立出来
5. 总结
在运行mapreduce任务中,经常调整的参数有:
mapred.reduce.tasks:手动设置reduce个数mapreduce.map.output.compress:map输出结果是否压缩mapreduce.map.output.compress.codec
mapreduce.output.fileoutputformat.compress:job输出结果是否压缩mapreduce.output.fileoutputformat.compress.typemapreduce.output.fileoutputformat.compress.codec
MapReduce任务参数调优(转)的更多相关文章
- MapReduce参数调优
原文链接:http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Ya ...
- Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
- 大数据:Hive常用参数调优
1.limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
- Hbase和Hadoop的内存参数调优 + 前端控制台
1.hadoop的内存配置调优 mapred-site.xml的内存调整 <property> <name>mapreduce.map.memory.mb</name&g ...
- 搭建 windows(7)下Xgboost(0.4)环境 (python,java)以及使用介绍及参数调优
摘要: 1.所需工具 2.详细过程 3.验证 4.使用指南 5.参数调优 内容: 1.所需工具 我用到了git(内含git bash),Visual Studio 2012(10及以上就可以),xgb ...
- 【转】Windows下使用libsvm中的grid.py和easy.py进行参数调优
libsvm中有进行参数调优的工具grid.py和easy.py可以使用,这些工具可以帮助我们选择更好的参数,减少自己参数选优带来的烦扰. 所需工具:libsvm.gnuplot 本机环境:Windo ...
- spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6. ...
- Linux内核 TCP/IP、Socket参数调优
Linux内核 TCP/IP.Socket参数调优 2014-06-06 Harrison.... 阅 9611 转 165 转藏到我的图书馆 微信分享: Doc1: /proc/sy ...
- JVM参数调优
JVM参数调优 JVM参数调优是一个很头痛的问题,可能和应用有关系,下面是本人一些调优的实践经验,希望对读者能有帮助,环境LinuxAS4,resin2.1.17,JDK6.0,2CPU,4G内存,d ...
随机推荐
- 走进DOM:HTML DOM
DOM(Document Object Model)即文档对象模型.针对HTML和XML 文档的API(应用程序接口). DOM描绘了一个层次化的节点树,执行开发者加入.移除和改动页面的某一部分.当然 ...
- 好汉两个半第十二季/全集Two and a Half Men迅雷下载
本季Two And A Half Men Season 12 (2014)看点:<好汉两个半>的“半个”是因为第一季播出时杰克年纪太小,只能算半个.故事就在这三个主角和他们周围的女人中发生 ...
- 用开源项目circular progress button实现有进度条的Button
circular progress button可以让button实现进度条,效果和动画都做的很赞,只是有点小bug.需要注意的是按钮上的文字不能太大,否则会出现错位. 项目的地址:https://g ...
- Kubernetes基础
Kubernetes是什么 Kubernetes是当今最流行的开源容器管理平台,它就是大名鼎鼎的Google Borg的开源版本.Google在2014年推出了Kubernetes,本文发布时最新的版 ...
- Java内存数据库-H2介绍及实例(SpringBoot)
介绍 内存数据库(Embedded database或in-momery database)具有配置简单.启动速度快.尤其是其可测试性等优点,使其成为开发过程中非常有用的轻量级数据库.在spring中 ...
- 图像质量评估(IQA)
图像质量评估函数的分类曾是一个比较有争议的话题,在2l世纪以前曾经有过 比较多的讨论.但是随着研究的深入和技术的广泛应用,研究人员对于图像质量 评估函数的分类有了统一的认识,即从实际应用中参考信息供给 ...
- [转]用国内软件源为Ubuntu的apt-get提速方法
FROM : http://www.jb51.net/os/Ubuntu/45293.html 刚装好Ubuntu系统之后根据需要还要安装一系列的软件,最省心的办法就是通过apt-get来进行 默 ...
- html input type=file 选择图片,图片预览 纯html js实现图片预览
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- NOI 2015 Bless All!
明天day1,加油!RP++! (话说出题人貌似是dyf&lyd?好虚啊……
- BZOJ3916: [Baltic2014]friends
题目:http://www.lydsy.com/JudgeOnline/problem.php?id=3916 题解:随便hash.刚开始看错题WA了N发.(我连双hash都写了!) 代码: #inc ...