mapred-site.xml 基本配置参考

说明：这是hadoop2.x版本的参数。下面的value都是参数默认值。

常用配置：

♥♥♥

.mapreduce.job.hdfs-servers

value：${fs.defaultFS}   

说明：job客户端参数。

.mapreduce.task.io.sort.factor

value：

说明：在Reduce Task阶段，排序文件时一次合并的流的数量。 这决定了打开文件句柄的数量。也即是一次合并的文件数据，每次合并的时候选择最小的前10进行合并。

.mapreduce.task.io.sort.mb

value：

说明：排序文件时使用的缓冲区内存总量，以兆字节为单位。 默认情况下，为每个合并流提供1MB，这应该最小化搜索。

.mapreduce.map.sort.spill.percent

value：0.8

说明：Map阶段溢写文件的阈值（排序缓冲区大小的百分比）。

.mapreduce.jobtracker.address

value：local

说明：MapReduce作业跟踪器运行的主机和端口。 如果是“本地”，则作业将作为单个映射在进程中运行并减少任务。

.mapreduce.job.maps

value:

说明：单个任务的map数量。

.mapreduce.job.reduces

value：

说明：单个任务的reduce数量。

 .mapreduce.job.running.map.limit

value：

说明：单个任务并发的最大map数，0或负数没有限制

.mapreduce.job.running.reduce.limit

value：

单个任务并发的最大reduce数，0或负数没有限制

.mapreduce.job.max.map

value：-

说明：单个任务允许的最大map数，-1表示没有限制。

.mapreduce.job.max.split.locations

value：

说明：分片数量

.mapreduce.job.split.metainfo.maxsize

value:

说明：split的元数据信息数量，如果value为-，则没有限制

.mapreduce.map.maxattempts

value：

说明：每个 Map Task 最大重试次数,一旦重试参数超过该值,则认为 Map Task 运行失败。

.mapreduce.reduce.maxattempts

value：

说明：每个 reduce Task 最大重试次数,一旦重试参数超过该值,则认为 reduce Task 运行失败。

.mapreduce.reduce.shuffle.parallelcopies

value：

说明：Reduce Task启动的并发拷贝数据的线程数目

 .mapreduce.task.timeout

value：

说明：如果任务既不读取输入，也不写入输出，也不更新其状态字符串，则任务终止之前的毫秒数。0表示禁用超时。

.mapreduce.map.memory.mb

value：

说明：每个Map Task需要的内存量

.mapreduce.map.cpu.vcores

value：

说明：每个Map Task需要的虚拟CPU个数

.mapreduce.reduce.memory.mb

value：

说明：每个Reduce Task需要的内存量

.mapreduce.reduce.cpu.vcores

value：

说明：每个Reduce Task需要的虚拟CPU个数

.mapred.child.java.opts

value：-Xmx200m

说明：jvm启动的子线程可以使用的最大内存。建议值-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@taskid@.gc

.yarn.app.mapreduce.am.resource.mb

value：

说明：MR ApplicationMaster占用的内存量。

.yarn.app.mapreduce.am.resource.cpu-vcores

value：

说明：MR ApplicationMaster占用的虚拟CPU个数。

.mapreduce.jobhistory.address

value：0.0.0.0:

说明：指定历史服务器的地址和端口

.mapreduce.jobhistory.webapp.address

value：0.0.0.0:

说明：历史服务器的web地址

.mapreduce.map.java.opts

value：-Xmx1024m

说明：每个map任务的jvm需要的内存量，一般为map内存的0.

.mapreduce.reduce.java.opts

value：

说明：每个reduce任务jvm需要的内存量。为reduce内存量的0.

.mapreduce.map.output.compress

value：false

说明： map输出是否进行压缩，如果压缩就会多耗cpu，但是减少传输时间，如果不压缩，就需要较多的传输带宽,默认是false。配合 mapreduce.map.output.compress.codec使用

.mapreduce.map.output.compress.codec

value：org.apache.hadoop.io.compress.DefaultCodec

不常用配置：

.mapreduce.local.clientfactory.class.name

value：org.apache.hadoop.mapred.LocalClientFactory

说明：这是负责创建本地作业运行客户端的客户端工厂。

.mapreduce.jobtracker.system.dir

value：${hadoop.tmp.dir}/mapred/system

说明：MapReduce存储控制文件的目录，可配置多块硬盘，逗号分隔。

.mapreduce.jobtracker.staging.root.dir

value:${hadoop.tmp.dir}/mapred/staging

说明：用来存放与每个job相关的数据

.mapreduce.cluster.temp.dir

value：${hadoop.tmp.dir}/mapred/temp

说明：用来存放临时文件共享的目录。

.mapreduce.job.reducer.preempt.delay.sec

value：

说明：

.mapreduce.reduce.shuffle.fetch.retry.enabled

value：${yarn.nodemanager.recovery.enabled}

说明：设置主机重新启动期间启用提取重试。

.mapreduce.reduce.shuffle.fetch.retry.interval-ms

value：

说明：提取器重试再次获取的时间间隔。

.mapreduce.reduce.shuffle.fetch.retry.timeout-ms

value：

说明：取回超时时间

.mapreduce.reduce.shuffle.retry-delay.max.ms

value：

说明：在重试下载map数据之前，reducer将延迟的最大ms数。

.mapreduce.reduce.shuffle.connect.timeout

value：

说明：reduce task 连接map的超时时间，以毫秒为单位。

.mapreduce.reduce.shuffle.read.timeout

value：

说明：map 输出数据，reduce连接以后可用于读取的最长时间，以毫秒为单位。

.mapreduce.shuffle.listen.queue.size

value：

说明：shuffle侦听队列的长度

.mapreduce.shuffle.connection-keep-alive.enable

value：false

说明：是否保持活跃连接，默认为false。

.mapreduce.shuffle.connection-keep-alive.timeout

value：

说明：保持活跃连接的秒数。

.yarn.app.mapreduce.am.log.level

value：info

说明：MR ApplicationMaster的日志记录级别。 允许的级别为：OFF，FATAL，ERROR，WARN，INFO，DEBUG，TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”，则可以覆盖此处的设置。

.mapreduce.map.log.level

value：info

说明：map任务的日志记录级别。 允许的级别为：OFF，FATAL，ERROR，WARN，INFO，DEBUG，TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”，则可以覆盖此处的设置。

.mapreduce.reduce.log.level

value：info

说明：reduce任务的日志记录级别。 允许的级别为：OFF，FATAL，ERROR，WARN，INFO，DEBUG，TRACE和ALL。 如果设置了“mapreduce.job.log4j-properties-file”，则可以覆盖此处的设置。

.mapreduce.reduce.merge.inmem.threshold

value：

说明：设置了Map任务在缓存溢出前能够保留在内存中的输出个数的阈值（默认1000），只要一个满足，输出数据都将会写到磁盘。

.mapreduce.reduce.shuffle.merge.percent

value：0.66

说明：决定缓存溢出到磁盘的阈值（默认0.），即占用分配给map输出总内存的百分比。

.mapreduce.reduce.shuffle.input.buffer.percent

value：0.70

说明：Reduce任务对多个Map任务的输出结果进行合并时，占用的缓存空间在堆栈空间中的占用比例（默认0.）。

.mapreduce.reduce.input.buffer.percent

value：

说明：reduce函数开始运行时，内存中的map输出所占的堆内存比例不得高于这个值，默认情况内存都用于reduce函数，也就是map输出都写入到磁盘

.mapreduce.reduce.shuffle.memory.limit.percent

value：0.25

说明：一个单一的shuffle的最大内存使用限制

.mapreduce.shuffle.ssl.enabled

value：false

说明：是否将SSL用于Shuffle HTTP端点。

.mapreduce.shuffle.ssl.file.buffer.size

value：

说明：使用SSL时从文件读取溢出的缓冲区大小。

配置文件常用配置：

 <property>

         <name>mapreduce.map.memory.mb</name>

         <value></value>

   </property>

   <property>

         <name>mapreduce.map.java.opts</name>

         <value>-Xmx819M</value>

   </property>

   <property>

         <name>mapreduce.reduce.memory.mb</name>

         <value></value>

   </property>

   <property>

         <name>mapreduce.reduce.java.opts</name>

         <value>-Xmx1638M</value>

   </property>

   <property>

         <name>mapreduce.task.io.sort.mb</name>

         <value></value>

   </property>

   <property>

         <name>mapreduce.task.io.sort.factor</name>

         <value></value>

   </property>

    <property>

    <name>mapreduce.tasktracker.http.threads</name>

<value></value>

</property>

   <property>

         <name>mapreduce.reduce.shuffle.parallelcopies</name>

         <value></value>

   </property>

    <property>

         <name>mapreduce.map.output.compress</name>

         <value>true</value>

   </property>

    <property>

         <name>mapreduce.map.output.compress.codec</name>

         <value>org.apache.hadoop.io.compress.DefaultCodec</value>

   </property>

   <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobtracker.address</name>

        <value>master:</value>

    </property>

mapred-site.xml 基本配置参考的更多相关文章

yarn-site.xml 基本配置参考
以下只是对yarn配置文件(yarn.site.xml)简单的一个配置 <configuration>  <property&g ...
hdfs-site.xml 基本配置参考
配置参数: 1.dfs.nameservices 说明:为namenode集群定义一个services name 默认值:null 比如设置为:ns1 2.dfs.ha.namenodes.<d ...
log4j配置参考手册：log4j.properties和log4j.xml两种格式
log4j是Java Web开发中,最常用的日志组件之一.网上关于log4j的配置满天飞,我主要是从网上学习的配置.之前的很多年,主要使用log4j.properties这种格式.后来,项目中boss ...
源码跟读，Spring是如何解析和加载xml中配置的beans
Spring版本基于: 跟踪代码源码基于: https://github.com/deng-cc/KeepLearning commit id:c009ce47bd19e1faf9e07f12086c ...
Dubbo -- 系统学习笔记 -- 配置参考手册
Dubbo -- 系统学习笔记 -- 目录配置参考手册 <dubbo:service/> <dubbo:reference/> <dubbo:protocol/> ...
为什么Spring Boot推荐使用logback-spring.xml来替代logback.xml来配置logback日志的问题分析
最根本的原因: 即,logback.xml加载早于application.properties,所以如果你在logback.xml使用了变量时,而恰好这个变量是写在application.proper ...
MyBatis—mapper.xml映射配置
SQL文件映射(mapper文件),几个顶级元素的配置: mapper元素:根节点只有一个属性namespace(命名空间)作用: 1:用于区分不同的mapper,全局唯一. 2:绑定DAO接口,即面 ...
Maven项目settings.xml的配置
原文地址 http://www.cnblogs.com/DreamDrive/p/5571916.html 在Maven中提供了一个settings.xml文件来定义Maven的全局环境信息.这个文件 ...
在spring-mybatis.xml 中配置pagehelper
maven导包:<dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</ ...

随机推荐

C# 窗体淡出淡入效果
[DllImport("user32.dll")] //设置控件出现动画 private static extern bool AnimateWindo ...
笔记 - C#从头开始构建编译器 - 1
视频与PR:https://github.com/terrajobst/minsk/blob/master/docs/episode-01.md 作者是 Immo Landwerth(https:// ...
同步IO，异步IO，阻塞，非阻塞的定义与区别
异步I/O 是指用户程序发起IO请求后,不等待数据,同时操作系统内核负责I/O操作把数据从内核拷贝到用户程序的缓冲区后通知应用程序.数据拷贝是由操作系统内核完成,用户程序从一开始就没有等待数据,发起请 ...
JavaScript （内置对象及方法）
JavaScript中的对象分为3种:内置对象.浏览器对象.自定义对象 JavaScript 提供多个内置对象:Math/Array/Number/String/Boolean... 对象只是带有属性 ...
基于【建造者模式】一 || 网关zuul过滤器封装
一.springcloud的zuul网关拦截 1.黑名单拦截 2.参数验签 3.Api接口权限验证二.网关拦截实现方式 1.继承ZuulFilter方法,实现业务逻辑 @Component @Slf ...
ios获取数组中的最大值
在编码过程中,我们通常碰到一组数据,需要自己简单的处理下,拿到数组中的总和,大小和平均值数据. 1.简单粗暴的方法,快速求和. NSArray * array = @[@"35", ...
Django请求生命周期和ORM
dajngo请求生命周期 django请求生命周期是:当用户在browser点击URL后,在django后台都发生了什么. 请求响应Http 1.发送Http请求 2.服务器接收,根据请求头中url在 ...
Mysql 中完善的帮助命令
Mysql 中完善的帮助命令 Mysql 中的帮助系统很完善,很多操作都可以通过命令行直接获得帮助,如下示例: Mysql 命令行帮助 [root@mysql1 mydata1]# mysql -S ...
【问题】root账号的UID和GID永远是0吗？
参考:Does the root account always have UID/GID 0? 这实际上是2个问题 Does the superuser account always have uid ...
CUDA中确定你显卡的thread和block数
CUDA中确定你显卡的thread和block数在进行并行计算时, 你的显卡所支持创建的thread数与block数是有限制的, 因此, 需要自己提前确定够用, 再进行计算, 否则, 你需要改进你的 ...

mapred-site.xml 基本配置参考

mapred-site.xml 基本配置参考的更多相关文章

随机推荐

热门专题