Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类
Hadoop源码学习笔记(1)
——找到Main函数及读一读Configure类
前面在第一季中,我们简单地研究了下Hadoop是什么,怎么用。在这开源的大牛作品的诱惑下,接下来我们要研究一下它是如何实现的。
提前申明,本人是一直搞.net的,对java略为生疏,所以在学习该作品时,会时不时插入对java的学习,到时也会摆一些上来,包括一下设计模式之类的。欢迎高手指正。
整个学习过程,我们主要通过eclipse来学习,之前已经讲过如何在eclipse中搭建调试环境,这里就不多述了。
在之前源码初窥中,我们已经找到了主要几个的main函数入口。所以这里我们列一列计划:
- FsShell main入口: org.apache.hadoop.fs.FsShell
- NameNode main入口: org.apache.hadoop.hdfs.server.namenode.NameNode
- DataNode main入口: org.apache.hadoop.hdfs.server.datanode.DataNode
- JobTracker main入口: org.apache.hadoop.mapred.JobTracker
- TaskTracker main入口: org.apache.hadoop.mapred.TaskTracker
我们会按这个顺序来研究,至于其他的像SecondeNameNode之类的,在最后再来研究。
同样,针对这些内容,我们还会分一下,第一步先来看DFS,第二步再来看MapReduce部份。
在研究DFS之前,我们看一下,这三者关系:

其中NameNode是客户端的主接口,也是唯一的对接点,同时主要负责文件名目录管理,以及数据DataNode的映射。
好了,要研究一块,我们先来把程序跑起来吧。
在eclipse中我们很方便地就能找到每个模块的对应的main函数,但还是有些不便,为了调试方便,我们再新建三个入口类:

自建入口类主要是为方便找到,然后这三个类中的代码分别为:
FsShellEnter.java
- import org.apache.hadoop.fs.FsShell;
- public class FsShellEnter {
- public static void main(String[] args) throws Exception {
- FsShell.main(new String[]{"-ls"});
- }
- }
NamNodeEnter.java
- public class NameNodeEnter {
- public static void main(String[] args) throws Exception {
- org.apache.hadoop.hdfs.server.namenode.NameNode.main(args);
- }
- }
DataNodeEnter.java
- public class DataNodeEnter {
- public static void main(String[] args) {
- org.apache.hadoop.hdfs.server.datanode.DataNode.main(args);
- }
- }
运行之:
启动命令行,运行:$ bin/hadoop namenode
然后在eclipse中,打开FsShellEnter.java,然后点击运行,可以看到:

反过来,在eclipse中,打开NamNodeEnter.java,点击运行,

在控制台中,可以输入一堆的信息,说明正常了。
然后打开命令行,输入:$ bin/hadoop fs -ls,可以看到:

这样,说明正反运行都可以了。
当然这里我们没有涉及文件内容操作,所以没有DataNode也没问题,不过可以自行试一下。
打开这几个main函数,都可以看到上来都在初使化这个Configuration类。所以我们先来看一看这个类到底有点啥:
先看一下之前我们如何用这个类的:
- Configuration conf = new Configuration();
- String name = conf.get("fs.default.name");
- System.out.println(name);
从字面意思及这段函数,可以看出Configuration类用于读取配置文件的,且该程序就是读出配置文件中fs.default.name的值。
观察其构造函数:
- public Configuration() {
- this(true);
- }
- public Configuration(boolean loadDefaults) {
- this.loadDefaults = loadDefaults;
- if (LOG.isDebugEnabled()) {
- LOG.debug(StringUtils.stringifyException(new IOException("config()")));
- }
- synchronized(Configuration.class) {
- REGISTRY.put(this, null);
- }
- }
发现其本没有做什么操作,主要设置了一个loadDefaults值为true。
然后再观察get函数:
- public String get(String name) {
- return substituteVars(getProps().getProperty(name));
- }
- private synchronized Properties getProps() {
- if (properties == null) {
- properties = new Properties();
- loadResources(properties, resources, quietmode);
- if (overlay!= null)
- properties.putAll(overlay);
- }
- return properties;
- }
Get函数先是调用了substituteVars函数,这个是正则表达式处理函数,对返回值进行去非法字符处理,然后getProps函数中,对hashtable类型的properties进行判断,如果为空则创建并进行初使化,否则直接返回。然后getProperty再根据其key值进行取值。
很明显,这里是采用了懒加载的方式,就是说并没有一开始加载配置文件中的数据,而是等要访问时,才进行加载。
进一步看如何初使化的,loadResources函数:
- private void loadResources(Properties properties,
- ArrayList resources,
- boolean quiet) {
- if(loadDefaults) {
- for (String resource : defaultResources) {
- loadResource(properties, resource, quiet);
- }
- //support the hadoop-site.xml as a deprecated case
- if(getResource("hadoop-site.xml")!=null) {
- loadResource(properties, "hadoop-site.xml", quiet);
- }
- }
- for (Object resource : resources) {
- loadResource(properties, resource, quiet);
- }
- }
这里第5行可看到先加载了defaultResources中的资源,然后再加载hadoop-site.xml(第10行)。
defaultResources有哪些呢,一步步找,可以看到:
- static{
- ...
- addDefaultResource("core-default.xml");
- addDefaultResource("core-site.xml");
- }
- public static synchronized void addDefaultResource(String name) {...}
从这里看到,默认加载了core-default.xml和core-site.xml这两个文件。
到这里,我们可以再打开这3个XML来看看了:


从这两个文件,我们可以看出,配置文件中存储就是用的key-value的健值对方式,然后加一个description对该配置项的描述。所以程序中读取也是传入key即可获取value。
同时,core-site.xml是我们自己配置文件,仔细看,可发现,在core-defalut.xml中也有一些相同的配置项。加载时先加载defalut再site,后者有相同key时覆盖前者。
所以换句话说,我们可以不配置hadoop.tmp.dir 则默认就在上面default中的/tmp….目录。
同时也可相到,hadoop的其他配置,就可以参考core-default.xml中的了。 可以直接改,也可以在core-site中再复制一份再改。
继续观察Configuration还有哪些方法:

发现其中有很多个get函数,然后是返回各种不同类型的。这样就方便我们取值后直接处理了。

同时,可以看到还有一堆的set函数。这些set函数追进去看,是在修改hashtable的,并没有保存。所以说这些用途也是可见的,不用配置文件也可以让Configuration工作起来。
Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类的更多相关文章
- Hadoop源码学习笔记(6)——从ls命令一路解剖
Hadoop源码学习笔记(6) ——从ls命令一路解剖 Hadoop几个模块的程序我们大致有了点了解,现在我们得细看一下这个程序是如何处理命令的. 我们就从原头开始,然后一步步追查. 我们先选中ls命 ...
- Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构 之前我们简要的看过了DataNode的main函数以及整个类的大至,现在结合前面我们研究的线程和RPC,则可以进一步 ...
- Hadoop源码学习笔记(4) ——Socket到RPC调用
Hadoop源码学习笔记(4) ——Socket到RPC调用 Hadoop是一个分布式程序,分布在多台机器上运行,事必会涉及到网络编程.那这里如何让网络编程变得简单.透明的呢? 网络编程中,首先我们要 ...
- Hadoop源码学习笔记(3) ——初览DataNode及学习线程
Hadoop源码学习笔记(3) ——初览DataNode及学习线程 进入了main函数,我们走出了第一步,接下来看看再怎么走: public class DataNode extends Config ...
- Hadoop源码学习笔记(2) ——进入main函数打印包信息
Hadoop源码学习笔记(2) ——进入main函数打印包信息 找到了main函数,也建立了快速启动的方法,然后我们就进去看一看. 进入NameNode和DataNode的主函数后,发现形式差不多: ...
- Hadoop源码学习笔记之NameNode启动场景流程一:源码环境搭建和项目模块及NameNode结构简单介绍
最近在跟着一个大佬学习Hadoop底层源码及架构等知识点,觉得有必要记录下来这个学习过程.想到了这个废弃已久的blog账号,决定重新开始更新. 主要分以下几步来进行源码学习: 一.搭建源码阅读环境二. ...
- Hadoop源码学习笔记之NameNode启动场景流程四:rpc server初始化及启动
老规矩,还是分三步走,分别为源码调用分析.伪代码核心梳理.调用关系图解. 一.源码调用分析 根据上篇的梳理,直接从initialize()方法着手.源码如下,部分代码的功能以及说明,已经在注释阐述了. ...
- Hadoop源码学习笔记之NameNode启动场景流程五:磁盘空间检查及安全模式检查
本篇内容关注NameNode启动之前,active状态和standby状态的一些后台服务及准备工作,即源码里的CommonServices.主要包括磁盘空间检查. 可用资源检查.安全模式等.依然分为三 ...
- Hadoop源码学习笔记之NameNode启动场景流程二:http server启动源码剖析
NameNodeHttpServer启动源码剖析,这一部分主要按以下步骤进行: 一.源码调用分析 二.伪代码调用流程梳理 三.http server服务流程图解 第一步,源码调用分析 前一篇文章已经锁 ...
随机推荐
- 洛谷P5292 [HNOI2019]校园旅行(二分图+最短路)
题面 传送门 题解 如果暴力的话,我们可以把所有的二元组全都扔进一个队列里,然后每次往两边更新同色点,这样的话复杂度是\(O(m^2)\) 怎么优化呢? 对于一个同色联通块,如果它是一个二分图,我们只 ...
- 工作中遇到的两个问题-正则以及console
一.今天做点击按钮验证邮箱时,遇到以下几个问题: (1)点击按钮后,执行if(regExp.test(str)),出现一种奇怪的现象:第一次输入正确邮箱验证通过,第二次输入正确邮箱就返回false,第 ...
- 记一次在CentOS系统搭建python3环境
首先,查看linux系统类型和版本:参考:查看linux系统类型和版本 默认Centos7中是有python安装的,但是是2.7版本,实际上这几个文件之间是有依赖关系的.在ls 后面加个 -al参数, ...
- mxonline实战4,用户登陆页面2和用户注册1
一. 基于类来定义view.py diango中使用基于类来定义views的功能,其实更加方便,因为这样可继承一些定义好的基类,来减少我们的代码量 1. 使用基于类的方法,来重新定 ...
- OO第二单元の小结
第二单元(线程与电梯问题)总结博客 三次作业的设计策略 第一次:本次作业只有一部电梯,而且不用捎带.因此,我一共设计了两个线程:一个负责管理输入,一个负责电梯运行.同时,我将调度队列设置为单例模式,里 ...
- 题目1004:Median(查找中位数)
问题来源 http://ac.jobdu.com/problem.php?pid=1004 问题描述 给你两个非降序序列,让你求中位数.中位数为第(n+1)/2个数(从0开始计算). 问题分析 这个问 ...
- 嵌入式C语言自我修养 05:零长度数组
5.1 什么是零长度数组 顾名思义,零长度数组就是长度为0的数组. ANSI C 标准规定:定义一个数组时,数组的长度必须是一个常数,即数组的长度在编译的时候是确定的.在ANSI C 中定义一个数组的 ...
- 往word中插入美观的代码
http://www.planetb.ca/syntax-highlight-word 选择需要的语言,然后Show Highlighted,复制跳转页面显示的代码至word即可
- Django分页的实现
Django分页的实现 Django ORM 分页介绍 分页是网页浏览中常见到的一种形式,在数据量较大时,一个页面显示不全,采取分割数据由用户选择进行显示的方式. 基本实现 技术点 通过切片得到数据 ...
- PTA 这是二叉搜索树吗?
https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192 #include<iostream&g ...