一、影响MR程序效率的因素

  1.计算机性能:

  CPU、内存、磁盘、网络,

  计算机的性能会影响MR程序的速度与效率

  2.I/O方面

   1)数据倾斜(代码优化)

   2)map和reduce数量设置不合理(通过配置文件后代码中设置)

   3)map运行时间过长,导致reduce等待时间过长

   4)小文件过多(浪费元数据资源,CombineTextInputFormat)

   5)不可分快的超大文件(不断溢写)

   6)多个溢写小文件需要多次合并。

二、MR的优化方法

  MR优化的六个方面:数据输入、map阶段、reduce阶段、IO传输、数据倾斜、参数调优

  1.数据输入

    1)合并小文件:在执行mr任务前就进行小文件合并

    2)采用CombineTextInputFormat来作为输入,解决输入端大量小文件的场景

    MR程序不适合处理大量小文件

  2.Map阶段

    1)减少溢写次数:

    //修改内存大小:mapreduce.task.io.sort.mb

    //修改默认溢写百分百:mapreduce.mps.sort.spill.percent

    2)减少合并次数

    //mapreduce.task.io.sort.factor,将merge值增大

    3)在shuffle阶段不影响业务逻辑情况下使用Combiner

  3.Reduce阶段

    1)设置合理的map与reduce个数

    //map可以通过文件切块的大小,或小文件合并改变maptask数量

    //reduce通过分区partitioner,setNumReduceTasks改变reducetask数量

    2)设置map/reduce共存

   //即map允许到一定程度后,启动reduce减少reduce的等待时间

   //mapreduce.job.reduce.slowstart.completedfmaps(参数越小reduce等待时间越少)

   //合理设置reduce端的buffer:mapreduce.reduce.markreset.buffer.percent

  4.数据传输

    1)数据压缩

    2)使用SequenceFile,它是二进制文件,使字节之间紧密度更高,提高效率。

  5.数据倾斜

    1)进行范围分区

    2)自定义分区

    3)Combiner

    4)能用map join坚决不用reduce join

  6.参数调优

    1)CPU

    //程序map阶段默认使用cpu核心数量:mapreduce.map.cpu.vcores

     //程序reduce阶段more使用cpu核心数量:mapreduce.reduce.cpu.vcores

    2)内存

    //一个maptask可以使用的最大内存:mapreduce.map.memory.mb

    //一个reducetask可以使用的最大内存:mapredcue.reduce.memory.mb

    3)并行度

    //reduce去map端拿数据时的并行度:mapreduce.reduce.shuffle.parallelcopies

Hadoop优化的更多相关文章

  1. 学习笔记:Twitter核心数据类库团队的Hadoop优化经验

    一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @ ...

  2. 关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra 及Hadoop优化

    http://www.searchtech.pro/ Hadoop添加或调整的参数: 一.hadoop-env.sh1.hadoop的heapsize的设置,默认1000 # The maximum ...

  3. Hadoop优化 第一篇 : HDFS/MapReduce

    比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...

  4. hadoop优化之拙见

    map-reduce的优化: 需要内存的地方:  map/reduce任务运行时内存.存放中间数据的内存缓存区.map输出数据排序内存, 需要操作磁盘的地方: map输出数据缓冲区达到阀值的溢出写文件 ...

  5. Hadoop(24)-Hadoop优化

    1. MapReduce 跑得慢的原因 优化方法 MapReduce优化方法主要从六个方面考虑:数据输入.Map阶段.Reduce阶段.IO传输.数据倾斜问题和常用的调优参数. 数据输入 Map阶段 ...

  6. Hadoop优化 操作系统优化

    1.优化文件系统,修改/etc/fstab 在defaults后面添加noatime,表示不记录文件的访问时间. 修改为: 如果不想重新启动操作系统使配置生效,那么应该执行: # mount -o r ...

  7. Hadoop优化之数据压缩

    bBHadoop数据压缩 概述 运行hadoop程序时,I/O操作.网络数据传输.shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 ...

  8. [大牛翻译系列]Hadoop(16)MapReduce 性能调优:优化数据序列化

    6.4.6 优化数据序列化 如何存储和传输数据对性能有很大的影响.在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能. 压缩压缩是Hadoop优化的重要部分.通过压缩可以减少作业输出数 ...

  9. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

随机推荐

  1. sklearn_收入模型

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  2. Ubuntu几个常用命令

    命令 > file 重定向,清空file文件 命令 >>file 重定向,不清空文件,在尾部追加 英文对照:

  3. SQL SERVER服务器登录名、角色、数据库用户、角色、架构的关系

    原创链接:https://www.cnblogs.com/junfly/articles/2798023.html SQL SERVER 基础教程中关于服务器登录名.服务器角色.数据库用户.数据库角色 ...

  4. Java JPS找不到正在执行的java进程 jps cannot see running java process

    最近磁盘进展,把临时目录/tmp给全删了,结果发现jps的输出为空,找不到正在运行的jvm进程. 但是新建的进程没有问题,能够正常查看: [root@node-master ~]# ps -e|gre ...

  5. JS中JSON和string字符串相互转换

    在Firefox,chrome,opera,safari,ie9,ie8等高级浏览器直接可以用JSON对象的stringify()和parse()方法. JSON.stringify(obj)将JSO ...

  6. luogu P5322 [BJOI2019]排兵布阵

    传送门 普及dp 设\(f_{i,j}\)表示前\(i\)个城堡,用\(j\)人的最大价值,转移枚举一个对手,如果这个对手在\(i\)这个城堡人数是第\(k\)小的,那么用\(2a_i+1\)人可以得 ...

  7. HTML和XHTML区别

    HTML和XHTML 可扩展超文本标记语言XHTML(eXtensible HyperText Markup Language)是将超文本标记语言HTML(HyperText Markup Langu ...

  8. vue面试题总结

    1.vue双向绑定的实现原理2.js的继承和原型链3.es6语法箭头函数和普通函数的区别 普通函数的this总是指向它的直接调用者. 在严格模式下,没找到直接调用者,则函数中的this是undefin ...

  9. 非常好用的sersync同步工具

    作者:邓聪聪 常用同步工具sync的进阶软件 服务端的配置: uid = rsync gid = rsync port = use chroot = on max connections = time ...

  10. npm vue ivew vue-cli3

    2019-4-10 10:56:20 星期三 学习iview时需要搭建一套node环境, 这里记录下来 1. 下载安装nodejs  //自带了npm包管理器 2. 设置npm的全局配置: 全局包默认 ...