mapred-site.xml 基本配置参考
说明:这是hadoop2.x版本的参数。下面的value都是参数默认值。
常用配置:
♥♥♥
.mapreduce.job.hdfs-servers
value:${fs.defaultFS}
说明:job客户端参数。
.mapreduce.task.io.sort.factor
value:
说明:在Reduce Task阶段,排序文件时一次合并的流的数量。 这决定了打开文件句柄的数量。也即是一次合并的文件数据,每次合并的时候选择最小的前10进行合并。
.mapreduce.task.io.sort.mb
value:
说明:排序文件时使用的缓冲区内存总量,以兆字节为单位。 默认情况下,为每个合并流提供1MB,这应该最小化搜索。
.mapreduce.map.sort.spill.percent
value:0.8
说明:Map阶段溢写文件的阈值(排序缓冲区大小的百分比)。
.mapreduce.jobtracker.address
value:local
说明:MapReduce作业跟踪器运行的主机和端口。 如果是“本地”,则作业将作为单个映射在进程中运行并减少任务。
.mapreduce.job.maps
value:
说明:单个任务的map数量。
.mapreduce.job.reduces
value:
说明:单个任务的reduce数量。
.mapreduce.job.running.map.limit
value:
说明:单个任务并发的最大map数,0或负数没有限制
.mapreduce.job.running.reduce.limit
value:
单个任务并发的最大reduce数,0或负数没有限制
.mapreduce.job.max.map
value:-
说明:单个任务允许的最大map数,-1表示没有限制。
.mapreduce.job.max.split.locations
value:
说明:分片数量
.mapreduce.job.split.metainfo.maxsize
value:
说明:split的元数据信息数量,如果value为-,则没有限制
.mapreduce.map.maxattempts
value:
说明:每个 Map Task 最大重试次数,一旦重试参数超过该值,则认为 Map Task 运行失败。
.mapreduce.reduce.maxattempts
value:
说明:每个 reduce Task 最大重试次数,一旦重试参数超过该值,则认为 reduce Task 运行失败。
.mapreduce.reduce.shuffle.parallelcopies
value:
说明:Reduce Task启动的并发拷贝数据的线程数目
.mapreduce.task.timeout
value:
说明:如果任务既不读取输入,也不写入输出,也不更新其状态字符串,则任务终止之前的毫秒数。0表示禁用超时。
.mapreduce.map.memory.mb
value:
说明:每个Map Task需要的内存量
.mapreduce.map.cpu.vcores
value:
说明:每个Map Task需要的虚拟CPU个数
.mapreduce.reduce.memory.mb
value:
说明:每个Reduce Task需要的内存量
.mapreduce.reduce.cpu.vcores
value:
说明:每个Reduce Task需要的虚拟CPU个数
.mapred.child.java.opts
value:-Xmx200m
说明:jvm启动的子线程可以使用的最大内存。建议值-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@taskid@.gc
.yarn.app.mapreduce.am.resource.mb
value:
说明:MR ApplicationMaster占用的内存量。
.yarn.app.mapreduce.am.resource.cpu-vcores
value:
说明:MR ApplicationMaster占用的虚拟CPU个数。
.mapreduce.jobhistory.address
value:0.0.0.0:
说明:指定历史服务器的地址和端口
.mapreduce.jobhistory.webapp.address
value:0.0.0.0:
说明:历史服务器的web地址
.mapreduce.map.java.opts
value:-Xmx1024m
说明:每个map任务的jvm需要的内存量,一般为map内存的0.
.mapreduce.reduce.java.opts
value:
说明:每个reduce任务jvm需要的内存量。为reduce内存量的0.
.mapreduce.map.output.compress
value:false
说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽,默认是false。配合 mapreduce.map.output.compress.codec使用
.mapreduce.map.output.compress.codec
value:org.apache.hadoop.io.compress.DefaultCodec
不常用配置:
.mapreduce.local.clientfactory.class.name
value:org.apache.hadoop.mapred.LocalClientFactory
说明:这是负责创建本地作业运行客户端的客户端工厂。
.mapreduce.jobtracker.system.dir
value:${hadoop.tmp.dir}/mapred/system
说明:MapReduce存储控制文件的目录,可配置多块硬盘,逗号分隔。
.mapreduce.jobtracker.staging.root.dir
value:${hadoop.tmp.dir}/mapred/staging
说明:用来存放与每个job相关的数据
.mapreduce.cluster.temp.dir
value:${hadoop.tmp.dir}/mapred/temp
说明:用来存放临时文件共享的目录。
.mapreduce.job.reducer.preempt.delay.sec
value:
说明:
.mapreduce.reduce.shuffle.fetch.retry.enabled
value:${yarn.nodemanager.recovery.enabled}
说明:设置主机重新启动期间启用提取重试。
.mapreduce.reduce.shuffle.fetch.retry.interval-ms
value:
说明:提取器重试再次获取的时间间隔。
.mapreduce.reduce.shuffle.fetch.retry.timeout-ms
value:
说明:取回超时时间
.mapreduce.reduce.shuffle.retry-delay.max.ms
value:
说明:在重试下载map数据之前,reducer将延迟的最大ms数。
.mapreduce.reduce.shuffle.connect.timeout
value:
说明:reduce task 连接map的超时时间,以毫秒为单位。
.mapreduce.reduce.shuffle.read.timeout
value:
说明:map 输出数据,reduce连接以后可用于读取的最长时间,以毫秒为单位。
.mapreduce.shuffle.listen.queue.size
value:
说明:shuffle侦听队列的长度
.mapreduce.shuffle.connection-keep-alive.enable
value:false
说明:是否保持活跃连接,默认为false。
.mapreduce.shuffle.connection-keep-alive.timeout
value:
说明:保持活跃连接的秒数。
.yarn.app.mapreduce.am.log.level
value:info
说明:MR ApplicationMaster的日志记录级别。 允许的级别为:OFF,FATAL,ERROR,WARN,INFO,DEBUG,TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”,则可以覆盖此处的设置。
.mapreduce.map.log.level
value:info
说明:map任务的日志记录级别。 允许的级别为:OFF,FATAL,ERROR,WARN,INFO,DEBUG,TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”,则可以覆盖此处的设置。
.mapreduce.reduce.log.level
value:info
说明:reduce任务的日志记录级别。 允许的级别为:OFF,FATAL,ERROR,WARN,INFO,DEBUG,TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”,则可以覆盖此处的设置。
.mapreduce.reduce.merge.inmem.threshold
value:
说明:设置了Map任务在缓存溢出前能够保留在内存中的输出个数的阈值(默认1000),只要一个满足,输出数据都将会写到磁盘。
.mapreduce.reduce.shuffle.merge.percent
value:0.66
说明:决定缓存溢出到磁盘的阈值(默认0.),即占用分配给map输出总内存的百分比。
.mapreduce.reduce.shuffle.input.buffer.percent
value:0.70
说明:Reduce任务对多个Map任务的输出结果进行合并时,占用的缓存空间在堆栈空间中的占用比例(默认0.)。
.mapreduce.reduce.input.buffer.percent
value:
说明:reduce函数开始运行时,内存中的map输出所占的堆内存比例不得高于这个值,默认情况内存都用于reduce函数,也就是map输出都写入到磁盘
.mapreduce.reduce.shuffle.memory.limit.percent
value:0.25
说明:一个单一的shuffle的最大内存使用限制
.mapreduce.shuffle.ssl.enabled
value:false
说明:是否将SSL用于Shuffle HTTP端点。
.mapreduce.shuffle.ssl.file.buffer.size
value:
说明:使用SSL时从文件读取溢出的缓冲区大小。
配置文件常用配置:
<property>
<name>mapreduce.map.memory.mb</name>
<value></value>
</property> <property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx819M</value>
</property> <property>
<name>mapreduce.reduce.memory.mb</name>
<value></value>
</property> <property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx1638M</value>
</property> <property>
<name>mapreduce.task.io.sort.mb</name>
<value></value>
</property> <property>
<name>mapreduce.task.io.sort.factor</name>
<value></value>
</property>
<property>
<name>mapreduce.tasktracker.http.threads</name>
<value></value>
</property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopies</name>
<value></value>
</property>
<property>
<name>mapreduce.map.output.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.DefaultCodec</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobtracker.address</name>
<value>master:</value>
</property>
mapred-site.xml 基本配置参考的更多相关文章
- yarn-site.xml 基本配置参考
以下只是对yarn配置文件(yarn.site.xml)简单的一个配置 <configuration> <!-- rm失联后重新链接的时间 --> <property&g ...
- hdfs-site.xml 基本配置参考
配置参数: 1.dfs.nameservices 说明:为namenode集群定义一个services name 默认值:null 比如设置为:ns1 2.dfs.ha.namenodes.<d ...
- log4j配置参考手册:log4j.properties和log4j.xml两种格式
log4j是Java Web开发中,最常用的日志组件之一.网上关于log4j的配置满天飞,我主要是从网上学习的配置.之前的很多年,主要使用log4j.properties这种格式.后来,项目中boss ...
- 源码跟读,Spring是如何解析和加载xml中配置的beans
Spring版本基于: 跟踪代码源码基于: https://github.com/deng-cc/KeepLearning commit id:c009ce47bd19e1faf9e07f12086c ...
- Dubbo -- 系统学习 笔记 -- 配置参考手册
Dubbo -- 系统学习 笔记 -- 目录 配置参考手册 <dubbo:service/> <dubbo:reference/> <dubbo:protocol/> ...
- 为什么Spring Boot推荐使用logback-spring.xml来替代logback.xml来配置logback日志的问题分析
最根本的原因: 即,logback.xml加载早于application.properties,所以如果你在logback.xml使用了变量时,而恰好这个变量是写在application.proper ...
- MyBatis—mapper.xml映射配置
SQL文件映射(mapper文件),几个顶级元素的配置: mapper元素:根节点只有一个属性namespace(命名空间)作用: 1:用于区分不同的mapper,全局唯一. 2:绑定DAO接口,即面 ...
- Maven项目settings.xml的配置
原文地址 http://www.cnblogs.com/DreamDrive/p/5571916.html 在Maven中提供了一个settings.xml文件来定义Maven的全局环境信息.这个文件 ...
- 在spring-mybatis.xml 中配置pagehelper
maven导包:<dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</ ...
随机推荐
- 简单web性能测试工具——ab命令(ApacheBench)
ab命令(ApacheBench) ----------转载内容 ApacheBench(即ab)通常用来做网站性能压力测试,是性能调优过程中必不可少的一环,ab命令会创建很多的并发访问线程,模拟多个 ...
- Xcode如何快速定位crash的位置?
最近发现经常有人程序崩掉后不知道怎么定位crash的位置 如何快速定位crash的位置? 选择右箭头 选择Add Exception Breakpoint 这样如果你的app再crash就会自动定位到 ...
- 【转载】 Asp.Net安全之防止脚本入
在ASP.NET开发过程中,安全性是必须要重中之重需要考虑的,其中一种情况是要防止用户输入恶意脚本入侵的情况,恶意脚本入侵指的是用户在提交内容中提交了包含特殊Javascript脚本程序等非法信息,如 ...
- vue滚动分页加载以及监听事件处理
<template> <div class="bodyContainer"> <div class="allContent" id ...
- SR开启时LOG_MODE必须是normal
SR开启时LOG_MODE必须是normal 需要一个初始化备份,
- Python中with用法详解
一 .with语句的原理 上下文管理协议(Context Management Protocol):包含方法 __enter__()和__exit__(),支持该协议的对象要实现这两个方法. 上下文管 ...
- 开发一个简单的工具,导出github仓库所有issue列表
Jerry有一个github仓库,专门用来存放自己的知识管理,通过一条条的issue来记录具体的知识点: https://github.com/i042416/KnowlegeRepository/i ...
- C#中的struct(结构)为值类型,struct类型全接触
众所周知,struct类型和class类型非常相似,尤其是在C++中,class可以办到的事struct几乎都可以实现.在C#中struc类型依然存在,它的用处相对来说已经显得越来越不重要,这里主要讲 ...
- Android笔记(三十二) Android中线程之间的通信(四)主线程给子线程发送消息
之前的例子都是我们在子线程(WorkerThread)当中处理并发送消息,然后在主线程(UI线程)中获取消息并修改UI,那么可以不可以在由主线程发送消息,子线程接收呢?我们按照之前的思路写一下代码: ...
- unittest 运行slenium(三)---通过数据驱动形式运行用例
一: 获取数据 获取用例所在位置,通过OpenExcelPandas来读取用例里面的全部数据.通过某个列名来创建新的序号. 并将结果转换成list类型,将其作为ddt数据的来源. 1. 在test文 ...