hadoop配置文件加载顺序(转)

原文 http://www.cnblogs.com/wolfblogs/p/4147485.html

用了一段时间的hadoop，现在回来看看源码发现别有一番味道，温故而知新，还真是这样的

在使用hadoop之前我们需要配置一些文件，hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml。那么这些文件在什么时候被hadoop使用？

一般的在启动hadoop的时候使用最多就是start-all.sh，那么这个脚本都干了些什么？

start-all.sh

# Start all hadoop daemons. Run this on master node.

#特别的地方时要在master节点上启动hadoop所有进程

bin=`dirname "$0"`

bin=`cd "$bin"; pwd` #bin=$HADOOP_HOME/bin

if [ -e "$bin/../libexec/hadoop-config.sh" ]; then

. "$bin"/../libexec/hadoop-config.sh

else

. "$bin/hadoop-config.sh"

fi

# start dfs daemons

"$bin"/start-dfs.sh --config $HADOOP_CONF_DIR

# start mapred daemons

"$bin"/start-mapred.sh --config $HADOOP_CONF_DIR

加载hadoop-env.sh

脚本先找到hadoop中的bin目录，在配置了hadoop环境变量的情况下该处可以使用$HADOOP_HOME/bin直接代替。接下来是执行hadoop-config.sh，这个文件可能会在$HADOOP_HOME/libexec目录或者是$HADOOP_HOME/bin目录下，在我使用的hadoop版本中是在$HADOOP_HOME/libexec目录下，在hadoop-config.sh文件中有下面这几行脚本

hadoop-config.sh

if [ -f "${HADOOP_CONF_DIR}/hadoop-env.sh" ]; then

. "${HADOOP_CONF_DIR}/hadoop-env.sh"

fi

测试$HADOOP_HOME/conf/hadoop-env.sh为普通文件后，通过 . "${HADOOP_CONF_DIR}/hadoop-env.sh" 执行hadoop-env.sh这个脚本，ok，我们在hadoop-env.sh中配置的环境变量 JAVA_HOME 生效了，其实我感觉这个地方完全可以不用配置，为什么？因为我们在linux上安装hadoop肯定要安装java，那么安装时肯定都会配置JAVA_HOME,在/etc/profile中配置的环境变量在任何的shell进程中都生效。

加载core-*.xml,hdfs.*.xml文件

执行完hadoop-config.sh命令后，执行$HADOOP_HOME/start-dfs.sh 。该脚本的作用是启动namenode,datename,secondarynamenode这三个与hdfs有关的进程

start-dfs.sh

# Run this on master node.

usage="Usage: start-dfs.sh [-upgrade|-rollback]"

bin=`dirname "$0"`

bin=`cd "$bin"; pwd`

if [ -e "$bin/../libexec/hadoop-config.sh" ]; then

. "$bin"/../libexec/hadoop-config.sh

else

. "$bin/hadoop-config.sh"

fi

# get arguments

if [ $# -ge 1 ]; then

nameStartOpt=$1

shift

case $nameStartOpt in

(-upgrade)

;;

(-rollback)

dataStartOpt=$nameStartOpt

;;

(*)

echo $usage

exit 1

;;

esac

fi

# start dfs daemons

# start namenode after datanodes, to minimize time namenode is up w/o data

# note: datanodes will log connection errors until namenode starts

"$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt

"$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start datanode $dataStartOpt

"$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR --hosts masters start secondarynamenode

仔细看看不能发现，在start-dfs.sh中同样也会执行hadoop-config.sh，之所以有这一步，是因为我们不总是使用start-all.sh来启动hadoop的所有进程，有时候我们只需要使用hdfs而不需要MapReduce，此时只需要单独执行start-dfs.sh，同样hadoop-config.sh中定义的变量也会被文件系统相关进程使用，所以这里在启动namenode，datanode，secondarynamenode之前需要先执行hadoop-config.sh，同时hadoop-env.sh文件被执行。再来看看最后的三行代码，分别是启动namenode，datanode，secondarynamenode的脚本。启动hadoop后一共有5个进程，其中三个就是namenode，datanode，secondarynamenode，既然能启动进程说明对应的类中一定有main方法，看看源码就可以验证这一点，这不是重点，重点是来看看对应的类是怎么加载配置文件的。无论是namenode，还是dataname，还是secondarynamenode，他们在启动时都会加载core-*.xml和hdfs-*.xml文件，以 org.apache.hadoop.hdfs.server.namenode.NameNode 这个类为例，其他的两个类 org.apache.hadoop.hdfs.server.datanode.DataNode， org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode类似。

org.apache.hadoop.hdfs.server.namenode.NameNode

public class NameNode implements ClientProtocol, DatanodeProtocol,

NamenodeProtocol, FSConstants,

RefreshAuthorizationPolicyProtocol,

RefreshUserMappingsProtocol {

static{

Configuration.addDefaultResource("hdfs-default.xml");

Configuration.addDefaultResource("hdfs-site.xml");

}

...

}

看看静态代码块里面内容，会很兴奋，看到了hdfs-default.xml和hdfs-site.xml。对重点就在这里，static code block在类加载到jvm执行类的初始化时会执行（不是对象初始化）。 Configuration . addDefaultResource ( "hdfs-default.xml" ); 这段代码执行前会先将Configuration这个类加载jvm中，那么看下org.apache.hadoop.conf.Configuration这个类中的static code block干了些什么

org.apache.hadoop.conf.Configuration

static{

//print deprecation warning if hadoop-site.xml is found in classpath

ClassLoader cL = Thread.currentThread().getContextClassLoader();

if (cL == null) {

cL = Configuration.class.getClassLoader();

}

if(cL.getResource("hadoop-site.xml")!=null) {

LOG.warn("DEPRECATED: hadoop-site.xml found in the classpath. " +

"Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, "

+ "mapred-site.xml and hdfs-site.xml to override properties of " +

"core-default.xml, mapred-default.xml and hdfs-default.xml " +

"respectively");

}

addDefaultResource("core-default.xml");

addDefaultResource("core-site.xml");

}

Configuration类在类的初始化时加载了core-default.xml和core-site.xml这两个文件。这样namenode在启动的时候就加载了core-*.xml和hdfs-*.xml文件，其中core-*.xml是由Configuration这个类加载的。

加载core-*.xml和mapred-*.xml文件

执行完start-dfs.xml后，执行start-mapred.sh，该脚本和start-hdf.sh差不多。

start-mapred.sh

# Start hadoop map reduce daemons. Run this on master node.

bin=`dirname "$0"`

bin=`cd "$bin"; pwd`

if [ -e "$bin/../libexec/hadoop-config.sh" ]; then

. "$bin"/../libexec/hadoop-config.sh

else

. "$bin/hadoop-config.sh"

fi

# start mapred daemons

# start jobtracker first to minimize connection errors at startup

"$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start jobtracker

"$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start tasktracker

该脚本同样也会执行hadoop-config.sh,同样也会执行hadoop-env.sh。这里和start-dfs.sh是统一的。最后两行代码是启动jobtracker和tasktracker进程的。同样对应着两个类org.apache.hadoop.mapred.JobTracker 和 org.apache.hadoop.mapred.TaskTracker

以 org.apache.hadoop.mapred.JobTracker为例，org.apache.hadoop.mapred.TaskTracker类似

org.apache.hadoop.mapred.JobTracker

public class JobTracker implements MRConstants, InterTrackerProtocol,

JobSubmissionProtocol, TaskTrackerManager, RefreshUserMappingsProtocol,

RefreshAuthorizationPolicyProtocol, AdminOperationsProtocol,

JobTrackerMXBean {

static{

Configuration.addDefaultResource("mapred-default.xml");

Configuration.addDefaultResource("mapred-site.xml");

}

...

}

ok，有了上面的解释，现在已经很明白了。JobTracker启动时加载了core-*.xml和mapred-*.xml文件，其中core-*.xml是由Configuration完成的。

summarize：

使用start-all.sh启动hadoop所有的进程时，各种配置文件得加载顺序：

HDFS：hadoop-env.sh --> core-default.xml --> core-site.xml --> hdfs-default.xml --> hdfs-site.xml

Mapred：hadoop-env.sh --> core-default.xml --> core-site.xml --> mapred.default.xml --> mapred.site.xml

注意到一点，core-*.xml系统的文件总是优先加载，而且hadoop中5个进程都会加载，这也说明core-*.xml是公共的基础库，被大家伙共享。

配置文件时在进程启动时加载的，这也可以证明如果修改了hadoop的配置文件，无论是系统配置文件还是管理员配置文件，都需要重新启动进程生效。

hadoop配置文件加载顺序(转)的更多相关文章

struts几个配置文件加载顺序_2015.01.04
struts几个配置文件加载顺序: 01:struts-default.xml 02:struts-plugin.xml 03:struts.xml 04:struts.properties 05:w ...
bash 的配置文件加载顺序
bash配置文件的加载顺序和登陆方式有关,下面先介绍下登陆方式. 1 登陆方式有2种登陆式SHELL: su - oracle su -l oracle 正常从终端登陆非登录式SHELL: ...
struts2配置文件加载顺序
struts2配置文件加载顺序: struts-default.xml/ struts-plugin.xml/ struts.xml/ struts.properties/ web.xml
SpringBoot的配置文件加载顺序和使用方式
1.bootstrap.properties bootstrap.properties 配置文件是由"根"上下文优先加载,程序启动之初就感知如:Spring Cloud Conf ...
@PropertySource加载文件的两种用法以及配置文件加载顺序
第一种: 现在我把资源文件的路径放在application.properties里 config.path=/home/myservice/config.properties @PropertySou ...
Spring Boot配置文件加载顺序
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.通过spring.config.location改变配置文件的位置二.外部配置加载顺序 1.使用命令行参数指定加 ...
Springboot配置文件加载顺序
使用Springboot开发的时候遇到了配置的问题,外部config里的配置文件本来没有配置https怎么启动还是https呢,原来开发中测试https在classpath路径的配置文件添加https ...
shell脚本，配置文件加载顺序，以及什么时候加载。
在linux系统中,有/etc/profile,/etc/bashrc ,~/.bash_profile,~/bashrc这四个配置文件,这些文件,会自动的在某些时候加载,也就是点一下,一般都是些别名 ...
Spring boot 配置文件加载顺序
springboot 启动会扫描以下位置的application.properties或者application.yml文件作为Spring boot的默认配置文件 –file:./config/ – ...

随机推荐

C++ 中常见预定义宏的使用
http://blog.csdn.net/hgl868/article/details/7058906 替代字符串: #define DOWNLOAD_IMAGE_LOG /var/log/png.l ...
MySQL逻辑备份与恢复
备份:mysqldump -uroot -p yyzc department > /home/admin/yyzc_backup.sql 恢复:mysql -uroot -p yyzc < ...
mongo复习
$pop:-1移除数组的第一个元素,1移除最后一个元素eg: db.c.update({"name" : "toyota"},{$pop:{"titl ...
photoshop几个基本技巧
原文地址:http://blog.thmz.com/user1/936/archives/2008/20418.htm 去除文字的几种方法: 1.访印图章工具 2.修补工具 3.修复画笔工具 4.画笔 ...
log4j:ERROR setFile(null,true) call failed.java.io.FileNotFoundException: ..\logs\2010-1-19.log (系统找不到指定的路径。)
log4j:ERROR setFile(null,true) call failed.java.io.FileNotFoundException: ..\logs\2010-1-19.log (系统找 ...
Javascript中理解发布--订阅模式
Javascript中理解发布--订阅模式阅读目录发布订阅模式介绍如何实现发布--订阅模式? 发布---订阅模式的代码封装如何取消订阅事件? 全局--发布订阅对象代码封装理解模块间通信回到 ...
Spring常用annotation标签
@Service @Scope @Transactional @Autowired @Qualifier @PostConstruct @PreDestroy
getVisibleSize 和 getContentSize 和 getWinSize
getVisibleSize:获得视口(可视区域)的大小,若是DesignResolutionSize跟屏幕尺寸一样大,则getVisibleSize便是getWinSize.getVisibleOr ...
cocos基础教程(1)Mac环境下搭建
下面主要介绍cocos2d-x环境的设置以及android的环境搭建 1.下载cocos2d-x 3.0正式版 http://www.cocos2d-x.org/download 2.下载a ...
Unity 3D 粒子系统的一点经验
http://hunterwang.diandian.com/post/2012-10-21/40041523890 最近做东西需要增加效果,简单的运用了一下粒子效果,真心感觉比较难调整好效果.同时也 ...

hadoop配置文件加载顺序(转)

hadoop配置文件加载顺序(转)的更多相关文章

随机推荐

热门专题