Hadoop学习（二） Hadoop配置文件参数详解

Hadoop运行模式分为安全模式和非安全模式，在这里，我将讲述非安全模式下，主要配置文件的重要参数功能及作用，本文所使用的Hadoop版本为2.6.4。

etc/hadoop/core-site.xml

参数	属性值	解释
fs.defaultFS	NameNode URI	hdfs://host:port/
io.file.buffer.size	131072	SequenceFiles文件中.读写缓存size设定

范例：

 <configuration>

     <property>

         <name>fs.defaultFS</name>

         <value>hdfs://192.168.1.100:900</value>

         <description>192.168.1.100为服务器IP地址，其实也可以使用主机名</description>

     </property>

     <property>

         <name>io.file.buffer.size</name>

         <value>131072</value>

         <description>该属性值单位为KB，131072KB即为默认的64M</description>

     </property>

 </configuration>

etc/hadoop/hdfs-site.xml

配置NameNode

参数	属性值	解释
dfs.namenode.name.dir	在本地文件系统所在的NameNode的存储空间和持续化处理日志	如果这是一个以逗号分隔的目录列表，然后将名称表被复制的所有目录，以备不时需。
dfs.namenode.hosts/ dfs.namenode.hosts.exclude	Datanodes permitted/excluded列表	如有必要，可以使用这些文件来控制允许数据节点的列表
dfs.blocksize	268435456	大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count	100	设置更多的namenode线程，处理从 datanode发出的大量RPC请求

范例：

 <configuration>

     <property>

         <name>dfs.replication</name>

         <value>1</value>

         <description>分片数量，伪分布式将其配置成1即可</description>

     </property>

     <property>

         <name>dfs.namenode.name.dir</name>

         <value>file:/usr/local/hadoop/tmp/namenode</value>

         <description>命名空间和事务在本地文件系统永久存储的路径</description>

     </property>

     <property>

         <name>dfs.namenode.hosts</name>

         <value>datanode1, datanode2</value>

         <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>

     </property>

     <property>

         <name>dfs.blocksize</name>

         <value>268435456</value>

         <description>大文件系统HDFS块大小为256M，默认值为64M</description>

     </property>

     <property>

         <name>dfs.namenode.handler.count</name>

         <value>100</value>

         <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>

     </property>

 </configuration>

配置DataNode

参数	属性值	解释
dfs.datanode.data.dir	逗号分隔的一个DataNode上，它应该保存它的块的本地文件系统的路径列表	如果这是一个以逗号分隔的目录列表，那么数据将被存储在所有命名的目录，通常在不同的设备。

范例：

 <configuration>

     <property>

         <name>dfs.datanode.data.dir</name>

         <value>file:/usr/local/hadoop/tmp/datanode</value>

         <description>DataNode在本地文件系统中存放块的路径</description>

     </property>

 </configuration>

etc/hadoop/yarn-site.xml

配置ResourceManager 和 NodeManager:

参数	属性值	解释
yarn.resourcemanager.address	客户端对ResourceManager主机通过 host:port 提交作业	host:port
yarn.resourcemanager.scheduler.address	ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源	host:port
yarn.resourcemanager.resource-tracker.address	NodeManagers通过ResourceManager主机访问host:port	host:port
yarn.resourcemanager.admin.address	管理命令通过ResourceManager主机访问host:port	host:port
yarn.resourcemanager.webapp.address	ResourceManager web页面host:port.	host:port
yarn.resourcemanager.scheduler.class	ResourceManager 调度类（Scheduler class）	CapacityScheduler（推荐），FairScheduler（也推荐），orFifoScheduler
yarn.scheduler.minimum-allocation-mb	每个容器内存最低限额分配到的资源管理器要求	以MB为单位
yarn.scheduler.maximum-allocation-mb	资源管理器分配给每个容器的内存最大限制	以MB为单位
yarn.resourcemanager.nodes.include-path/ yarn.resourcemanager.nodes.exclude-path	NodeManagers的permitted/excluded列表	如有必要，可使用这些文件来控制允许NodeManagers列表

范例：

 <configuration>

     <property>

         <name>yarn.resourcemanager.address</name>

         <value>192.168.1.100:8081</value>

         <description>IP地址192.168.1.100也可替换为主机名</description>

     </property>

     <property>

         <name>yarn.resourcemanager.scheduler.address</name>

         <value>192.168.1.100:8082</value>

         <description>IP地址192.168.1.100也可替换为主机名</description>

     </property>

     <property>

         <name>yarn.resourcemanager.resource-tracker.address</name>

         <value>192.168.1.100:8083</value>

         <description>IP地址192.168.1.100也可替换为主机名</description>

     </property>

     <property>

         <name>yarn.resourcemanager.admin.address</name>

         <value>192.168.1.100:8084</value>

         <description>IP地址192.168.1.100也可替换为主机名</description>

     </property>

     <property>

         <name>yarn.resourcemanager.webapp.address</name>

         <value>192.168.1.100:8085</value>

         <description>IP地址192.168.1.100也可替换为主机名</description>

     </property>

     <property>

         <name>yarn.resourcemanager.scheduler.class</name>

         <value>FairScheduler</value>

         <description>常用类：CapacityScheduler、FairScheduler、orFifoScheduler</description>

     </property>

     <property>

         <name>yarn.scheduler.minimum</name>

         <value>100</value>

         <description>单位：MB</description>

     </property>

     <property>

         <name>yarn.scheduler.maximum</name>

         <value>256</value>

         <description>单位：MB</description>

     </property>

     <property>

         <name>yarn.resourcemanager.nodes.include-path</name>

         <value>nodeManager1, nodeManager2</value>

         <description>nodeManager1, nodeManager2分别对应服务器主机名</description>

     </property>

 </configuration>

配置NodeManager

参数	属性值	解释
yarn.nodemanager.resource.memory-mb	givenNodeManager即资源的可用物理内存，以MB为单位	定义在节点管理器总的可用资源，以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio	最大比率为一些任务的虚拟内存使用量可能会超过物理内存率	每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs	数据写入本地文件系统路径的列表用逗号分隔	多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs	本地文件系统日志路径的列表逗号分隔	多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds	10800	如果日志聚合被禁用。默认的时间（以秒为单位）保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir	logs	HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix	logs	后缀追加到远程日志目录。日志将被汇总到${yarn.nodemanager.remoteapplogdir}/${user}/${thisParam} 仅适用日志聚合功能。
yarn.nodemanager.aux-services	mapreduce-shuffle	Shuffle service 需要加以设置的Map Reduce的应用程序服务

范例：

 <configuration>

     <property>

         <name>yarn.nodemanager.resource.memory-mb</name>

         <value>256</value>

         <description>单位为MB</description>

     </property>

     <property>

         <name>yarn.nodemanager.vmem-pmem-ratio</name>

         <value>90</value>

         <description>百分比</description>

     </property>

     <property>

         <name>yarn.nodemanager.local-dirs</name>

         <value>/usr/local/hadoop/tmp/nodemanager</value>

         <description>列表用逗号分隔</description>

     </property>

     <property>

         <name>yarn.nodemanager.log-dirs</name>

         <value>/usr/local/hadoop/tmp/nodemanager/logs</value>

         <description>列表用逗号分隔</description>

     </property>

     <property>

         <name>yarn.nodemanager.log.retain-seconds</name>

         <value>10800</value>

         <description>单位为S</description>

     </property>

     <property>

         <name>yarn.nodemanager.aux-services</name>

         <value>mapreduce-shuffle</value>

         <description>Shuffle service 需要加以设置的MapReduce的应用程序服务</description>

     </property>

 </configuration>

etc/hadoop/mapred-site.xml

配置mapreduce

参数	属性值	解释
mapreduce.framework.name	yarn	执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb	1536	对maps更大的资源限制的.
mapreduce.map.java.opts	-Xmx2014M	maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb	3072	设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts	-Xmx2560M	reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb	512	更高的内存限制，而对数据进行排序的效率
mapreduce.task.io.sort.factor	100	在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies	50	通过reduces从很多的map中读取较多的平行副本

范例：

 <configuration>

     <property>

         <name> mapreduce.framework.name</name>

         <value>yarn</value>

         <description>执行框架设置为Hadoop YARN</description>

     </property>

     <property>

         <name>mapreduce.map.memory.mb</name>

         <value>1536</value>

         <description>对maps更大的资源限制的</description>

     </property>

     <property>

         <name>mapreduce.map.java.opts</name>

         <value>-Xmx2014M</value>

         <description>maps中对jvm child设置更大的堆大小</description>

     </property>

     <property>

         <name>mapreduce.reduce.memory.mb</name>

         <value>3072</value>

         <description>设置 reduces对于较大的资源限制</description>

     </property>

     <property>

         <name>mapreduce.reduce.java.opts</name>

         <value>-Xmx2560M</value>

         <description>reduces对 jvm child设置更大的堆大小</description>

     </property>

     <property>

         <name>mapreduce.task.io.sort</name>

         <value>512</value>

         <description>更高的内存限制，而对数据进行排序的效率</description>

     </property>

     <property>

         <name>mapreduce.task.io.sort.factor</name>

         <value>100</value>

         <description>在文件排序中更多的流合并为一次</description>

     </property>

     <property>

         <name>mapreduce.reduce.shuffle.parallelcopies</name>

         <value>50</value>

         <description>通过reduces从很多的map中读取较多的平行副本</description>

     </property>

 </configuration>

配置mapreduce的JobHistory服务器

参数	属性值	解释
maprecude.jobhistory.address	MapReduce JobHistory Server host:port	默认端口号 10020
mapreduce.jobhistory.webapp.address	MapReduce JobHistory Server Web UIhost:port	默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir	/mrhistory/tmp	在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir	/mrhistory/done	目录中的历史文件是由MR JobHistory Server管理

范例：

 <configuration>

     <property>

         <name> mapreduce.jobhistory.address</name>

         <value>192.168.1.100:10200</value>

         <description>IP地址192.168.1.100可替换为主机名</description>

     </property>

     <property>

         <name>mapreduce.jobhistory.webapp.address</name>

         <value>192.168.1.100:19888</value>

         <description>IP地址192.168.1.100可替换为主机名</description>

     </property>

     <property>

         <name>mapreduce.jobhistory.intermediate-done-dir</name>

         <value>/usr/local/hadoop/mrhistory/tmp</value>

         <description>在历史文件被写入由MapReduce作业</description>

     </property>

     <property>

         <name>mapreduce.jobhistory.done-dir</name>

         <value>/usr/local/hadoop/mrhistory/done</value>

         <description>目录中的历史文件是由MR JobHistoryServer管理</description>

     </property>

 </configuration>

Web Interface

Daemon	Web Interface	Notes
NameNode	http://nn_host:port/	默认端口号50070
ResourceManager	http://rm_host:port/	默认端口号8088
MapReduce JobHistory Server	http://jhs_host:port/	默认端口号19888

Hadoop学习（二） Hadoop配置文件参数详解的更多相关文章

Nginx 主配置文件参数详解
Nginx 主配置文件参数详解 Nginx 安装完毕后,会有响应的安装目录,安装目录里 nginx.conf 为 nginx 的主配置文件, ginx 主配置文件分为 4 部分,main(全局配置). ...
Python学习二：词典基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...
Python学习记录3-函数参数详解
参数详解参数分类普通参数默认参数关键字参数收集参数普通参数定义时直接定义变量名调用的时候直接把变量或者值放入指定位置 def 函数名 (参数1, 参数2, ....): 函数体 # 调 ...
hadoop 学习笔记：mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop学习笔记：MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
vagrant（二）配置文件vagrantfile详解以及安装php、nginx、mysql
上一篇文章完整的讲叙了如何安装一个vagrant的环境.这里主要说一说vagrant的配置文件Vagrantfile. 一配置详解在我们的开发目录下有一个文件Vagrantfile,里面包含有大量 ...
sshd_config 配置文件参数详解
sshd_config配置详解名称sshd_config - OpenSSH SSH 服务器守护进程配置文件大纲/etc/ssh/sshd_config 描述sshd(8) 默认从 /etc/ss ...

随机推荐

Spark shuffle调优
1:sparkconf.set("spark.shuffle.file.buffer","64K") --不建议使用,因为这么写相当于硬编码2:在conf/sp ...
[T-ARA][거짓말(Part.1)][谎言(Part.1)]
歌词来源:http://music.163.com/#/song?id=5403062 作曲 : 赵英秀 [作曲 : 赵英秀] 作词 : 安英民 [作词 : 安英民] 사랑한단 거짓말 보고싶을거란 ...
python的os和sys模块
OS模块: 提供对操作系统进行调用的接口 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目 ...
粒子群优化算法PSO及matlab实现
算法学习自:MATLAB与机器学习教学视频 1.粒子群优化算法概述粒子群优化(PSO, particle swarm optimization)算法是计算智能领域,除了蚁群算法,鱼群算法之外的一种群 ...
BZOJ 1051 受欢迎的牛缩点
题目链接: https://www.lydsy.com/JudgeOnline/problem.php?id=1051 题目大意: 每一头牛的愿望就是变成一头最受欢迎的牛.现在有N头牛,给你M对整数( ...
(九）Linux查看用户登录的命令
用户登录查看命令 w 含义:就这么简单,一个字母w就是一个命令.查看登录用户信息. 输出的结果的含义: USER 登录的用户名 TTY 登录终端 FROM 从哪个I ...
【[POI2010]ANT-Antisymmetry】
开始复习字符串了第一步肯定得是$hash$ 首先理性分析一波不可能出现长度为奇数的反回文串,对称轴位置取反之后肯定和原来不相等了我们可以枚举所有回文串的对称中心,之后我们发现这个样子是具有单调 ...
坑之OJ-玄学、不可抗力
自家学校OJ网站上的题目,很玄学,不知道哪里出的问题. 这个OJ链接的题目没有问题的. https://www.luogu.org/problemnew/show/P1981 #include < ...
【jQuery】Deferred（延迟）对象
本文针对jQuery-todolist项目中使用到的Deferred(延迟)对象进行具体分析 $.Deferred() 是一个构造函数,用来返回一个链式实用对象方法来注册多个回调,并且调用回调队列,传 ...
python之获取文件夹下文件的绝对路径
#!/usr/bin/python #-*-conding:utf-8-*- #获取目录下文件的绝对路径 import os def getabsroute(path): listdir = os.l ...

Hadoop学习（二） Hadoop配置文件参数详解

etc/hadoop/core-site.xml

etc/hadoop/hdfs-site.xml

etc/hadoop/yarn-site.xml

etc/hadoop/mapred-site.xml

Web Interface

Hadoop学习（二） Hadoop配置文件参数详解的更多相关文章

随机推荐

热门专题