看《Hadoop:权威指南》的时候收集了书上写的一些需要优化的参数,记录了一下子,给大家分享一下吧。

1.mapred.task.timeout
任务超时时间,默认是10分钟

2.mapred.map.max.attempts  mapred.reduce.max.attempts
默认任务失败重复次数为4

3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent
不触发错误的失败的最大百分比

4.mapred.jobtracker.taskScheduler
作业调度算法设置,默认是FIFO

5.io.sort.mb io.sort.spill.percent
缓冲区大小默认为100MB,以及缓冲区阀值默认为0.8,超过80%就保存到硬盘

6.io.sort.factor
默认为10,一次只能合并10个溢出文件

7.mapred.compress.map.output
默认为false,不压缩输出文件
压缩算法由mapred.map.output.compression.codec指定

8.tracker.http.Threads
tasktracker用于默认为40的啦

9.mapred.reduce.parallel.copies
reduce复制map输出的线程数,默认是5个

10.mapred.inmem.merge.threshold
控制map输出阀值,如果reduce函数的内存需求不大,那么设置为0
mapred.job.reduce.input.buffer.percent设置为1,可以带来性能的提升。

11.io.sort.factor
合并因子,默认为10,意思是一次合并多少个Map输出
如果Map输出为50个文件,则每次把10个合并成一个文件,最后有5个中间文件。

12.mapred.child.java.opts
设置任务节点的内存大小

13.io.file.buffer.size
缓冲区,默认为4KB的缓冲区

14.mapred.map.tasks.speculative.execution mapred.reduce.tasks.speculative.execution
推测执行默认值为true,

15.mapred.job.reuse.jvm.num.tasks
默认值为1,指定作业的jvm执行任务的最大数,如果为-1,则同一作业中的任务可以共享一个JVM,数量不限

16.mapred.linerecordreader.maxlength
数据行长度的最大值,防止因为内存溢出导致的错误

17.SkipBadRecord开启跳跃模式,跳过失败的坏记录
mapred.map.max.attemps mapred.reduce.attemps 一次只能跳过一个错误记录

18.关闭安全模式
hadoop dfsadmin -safemode leave

hadoop 参数的更多相关文章

  1. hadoop参数配置

    Hadoop参数汇总 linux参数 JVM参数 Hadoop参数大全 core-default.xml hdfs-default.xml yarn-default.xml Hadoop参数汇总 @( ...

  2. hadoop记录-Hadoop参数汇总

    Hadoop参数汇总 linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓冲区 ...

  3. [转]Hadoop参数汇总

    出自:https://segmentfault.com/a/1190000000709725 Hadoop参数大全 主要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 ...

  4. Hadoop参数汇总

    linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓冲区 Linux的内核的IO ...

  5. [bigdata] hadoop 参数配置解析

    ResourceManager相关配置参数 yarn-site.xml 中配置 yarn.resourcemanager.address ResourceManager 对客户端暴露的地址.客户端通过 ...

  6. Hadoop参数优化

    dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.spec ...

  7. CM记录-Hadoop参数调优

    1.HDFS调优 a.设置合理的块大小(dfs.block.size) b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir) c.设置DataNode处理RPC的线 ...

  8. Hadoop参数调优

    转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接 ...

  9. 七、Hadoop学习笔记————调优之Hadoop参数调优

    dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比 如果服务器物理内存128G,则容器内存建议为100比较合理 配置总量时考虑系统 ...

随机推荐

  1. 马哥 Linux运维基础进阶和shell入门

    地址:http://edu.51cto.com/course/course_id-618.html 紧接马哥linux专题 第一讲 Bash变量: 1byte= -128,127 2bytes -32 ...

  2. SQL SERVER SELECT语句中加锁选项的详细说明 [转]

    SQL Server提供了强大而完备的锁机制来帮助实现数据库系统的并发性和高性能.用户既能使用SQL Server的缺省设置也可以在select 语句中使用“加锁选项”来实现预期的效果. 本文介绍了S ...

  3. C#委托、事件剖析(下)

    本节对事件进行总结. 二.事件: 1.概念:Event:A member that enables an object or class to provide notifications;官方的解释是 ...

  4. Android仿联系人列表分组悬浮列表实现,自己定义PinnedHeaderListView实现

    效果 (关于gif怎么生成的.我先录手机的屏幕得到mp4文件.然后用这个网址:https://cloudconvert.com/mp4-to-gif 进行的mp4转换gif,使用的时候须要又一次选择g ...

  5. [WARNING] mod_event_socket.c:2641 IP 172.18.1.112 Rejected by acl "loopback.auto"

    一.目标修改event_socket配置,使之能够建立远端ESL链接. 二.步骤 . vim ../autoload_configs/event_socket.conf.xml . 默认的监听地址配置 ...

  6. 《ZedBoard各种资料网址备份记录》

    转载来自于:http://http//www.eefocus.com/crazybingo/blog/2013-02/289101_ab4c8.html 1. Xilinx FPGA相关连接 1) X ...

  7. CCDictionary(转)

    #ifndef __CCDICTIONARY_H__ #define __CCDICTIONARY_H__ //需要哈希表的支持 #include "support/data_support ...

  8. linux命令(30):tail

    linux ---tail命令 linux中tail命令---用于查看文件内容 最基本的是cat.more和less. 1. 如果你只想看文件的前5行,可以使用head命令,如: head -5 /e ...

  9. 超详细解说Hadoop伪分布式搭建--实战验证【转】

    超详细解说Hadoop伪分布式搭建 原文http://www.tuicool.com/articles/NBvMv2原原文 http://wojiaobaoshanyinong.iteye.com/b ...

  10. 如何把高版本的sqlserver 还原到低版本的 sqlserver

    本例为sql2012 还原到sql2008. 要实现的功能是把sql2012的数据库备份到sql2008,数据库名字为Test,并且这两个数据库在不同的电脑中. 微软的软件设计方案基本上都是新版本兼容 ...