Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类

Hadoop源码学习笔记(1)

——找到Main函数及读一读Configure类

前面在第一季中，我们简单地研究了下Hadoop是什么，怎么用。在这开源的大牛作品的诱惑下，接下来我们要研究一下它是如何实现的。

提前申明，本人是一直搞.net的，对java略为生疏，所以在学习该作品时，会时不时插入对java的学习，到时也会摆一些上来，包括一下设计模式之类的。欢迎高手指正。

整个学习过程，我们主要通过eclipse来学习，之前已经讲过如何在eclipse中搭建调试环境，这里就不多述了。

在之前源码初窥中，我们已经找到了主要几个的main函数入口。所以这里我们列一列计划：

FsShell main入口: org.apache.hadoop.fs.FsShell
NameNode main入口: org.apache.hadoop.hdfs.server.namenode.NameNode
DataNode main入口: org.apache.hadoop.hdfs.server.datanode.DataNode
JobTracker main入口: org.apache.hadoop.mapred.JobTracker
TaskTracker main入口: org.apache.hadoop.mapred.TaskTracker

我们会按这个顺序来研究，至于其他的像SecondeNameNode之类的，在最后再来研究。

同样，针对这些内容，我们还会分一下，第一步先来看DFS，第二步再来看MapReduce部份。

在研究DFS之前，我们看一下，这三者关系：

其中NameNode是客户端的主接口，也是唯一的对接点，同时主要负责文件名目录管理，以及数据DataNode的映射。

好了，要研究一块，我们先来把程序跑起来吧。

在eclipse中我们很方便地就能找到每个模块的对应的main函数，但还是有些不便，为了调试方便，我们再新建三个入口类：

自建入口类主要是为方便找到，然后这三个类中的代码分别为：

FsShellEnter.java

import org.apache.hadoop.fs.FsShell;
public class FsShellEnter {
public static void main(String[] args) throws Exception {
FsShell.main(new String[]{"-ls"});
}
}

NamNodeEnter.java

public class NameNodeEnter {
public static void main(String[] args) throws Exception {
org.apache.hadoop.hdfs.server.namenode.NameNode.main(args);
}
}

DataNodeEnter.java

public class DataNodeEnter {
public static void main(String[] args) {
org.apache.hadoop.hdfs.server.datanode.DataNode.main(args);
}
}

运行之：

启动命令行，运行：$ bin/hadoop namenode

然后在eclipse中，打开FsShellEnter.java，然后点击运行，可以看到：

反过来，在eclipse中，打开NamNodeEnter.java，点击运行，

在控制台中，可以输入一堆的信息，说明正常了。

然后打开命令行，输入：$ bin/hadoop fs -ls，可以看到：

这样，说明正反运行都可以了。

当然这里我们没有涉及文件内容操作，所以没有DataNode也没问题，不过可以自行试一下。

打开这几个main函数，都可以看到上来都在初使化这个Configuration类。所以我们先来看一看这个类到底有点啥：

先看一下之前我们如何用这个类的：

Configuration conf = new Configuration();
String name = conf.get("fs.default.name");
System.out.println(name);

从字面意思及这段函数，可以看出Configuration类用于读取配置文件的，且该程序就是读出配置文件中fs.default.name的值。

观察其构造函数：

public Configuration() {
this(true);
}
public Configuration(boolean loadDefaults) {
this.loadDefaults = loadDefaults;
if (LOG.isDebugEnabled()) {
LOG.debug(StringUtils.stringifyException(new IOException("config()")));
}
synchronized(Configuration.class) {
REGISTRY.put(this, null);
}
}

发现其本没有做什么操作，主要设置了一个loadDefaults值为true。

然后再观察get函数：

public String get(String name) {
return substituteVars(getProps().getProperty(name));
}
private synchronized Properties getProps() {
if (properties == null) {
properties = new Properties();
loadResources(properties, resources, quietmode);
if (overlay!= null)
properties.putAll(overlay);
}
return properties;
}

Get函数先是调用了substituteVars函数，这个是正则表达式处理函数，对返回值进行去非法字符处理，然后getProps函数中，对hashtable类型的properties进行判断，如果为空则创建并进行初使化，否则直接返回。然后getProperty再根据其key值进行取值。

很明显，这里是采用了懒加载的方式，就是说并没有一开始加载配置文件中的数据，而是等要访问时，才进行加载。

进一步看如何初使化的，loadResources函数：

private void loadResources(Properties properties,
ArrayList resources,
boolean quiet) {
if(loadDefaults) {
for (String resource : defaultResources) {
loadResource(properties, resource, quiet);
}
//support the hadoop-site.xml as a deprecated case
if(getResource("hadoop-site.xml")!=null) {
loadResource(properties, "hadoop-site.xml", quiet);
}
}
for (Object resource : resources) {
loadResource(properties, resource, quiet);
}
}

这里第5行可看到先加载了defaultResources中的资源，然后再加载hadoop-site.xml（第10行）。

defaultResources有哪些呢，一步步找，可以看到：

static{
...
addDefaultResource("core-default.xml");
addDefaultResource("core-site.xml");
}
public static synchronized void addDefaultResource(String name) {...}

从这里看到，默认加载了core-default.xml和core-site.xml这两个文件。

到这里，我们可以再打开这3个XML来看看了：

从这两个文件，我们可以看出，配置文件中存储就是用的key-value的健值对方式，然后加一个description对该配置项的描述。所以程序中读取也是传入key即可获取value。

同时，core-site.xml是我们自己配置文件，仔细看，可发现，在core-defalut.xml中也有一些相同的配置项。加载时先加载defalut再site，后者有相同key时覆盖前者。

所以换句话说，我们可以不配置hadoop.tmp.dir 则默认就在上面default中的/tmp….目录。

同时也可相到，hadoop的其他配置，就可以参考core-default.xml中的了。可以直接改，也可以在core-site中再复制一份再改。

继续观察Configuration还有哪些方法：

发现其中有很多个get函数,然后是返回各种不同类型的。这样就方便我们取值后直接处理了。

同时，可以看到还有一堆的set函数。这些set函数追进去看，是在修改hashtable的，并没有保存。所以说这些用途也是可见的，不用配置文件也可以让Configuration工作起来。

Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类的更多相关文章

Hadoop源码学习笔记(6)——从ls命令一路解剖
Hadoop源码学习笔记(6) ——从ls命令一路解剖 Hadoop几个模块的程序我们大致有了点了解,现在我们得细看一下这个程序是如何处理命令的. 我们就从原头开始,然后一步步追查. 我们先选中ls命 ...
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构之前我们简要的看过了DataNode的main函数以及整个类的大至,现在结合前面我们研究的线程和RPC,则可以进一步 ...
Hadoop源码学习笔记(4) ——Socket到RPC调用
Hadoop源码学习笔记(4) ——Socket到RPC调用 Hadoop是一个分布式程序,分布在多台机器上运行,事必会涉及到网络编程.那这里如何让网络编程变得简单.透明的呢? 网络编程中,首先我们要 ...
Hadoop源码学习笔记(3) ——初览DataNode及学习线程
Hadoop源码学习笔记(3) ——初览DataNode及学习线程进入了main函数,我们走出了第一步,接下来看看再怎么走: public class DataNode extends Config ...
Hadoop源码学习笔记(2) ——进入main函数打印包信息
Hadoop源码学习笔记(2) ——进入main函数打印包信息找到了main函数,也建立了快速启动的方法,然后我们就进去看一看. 进入NameNode和DataNode的主函数后,发现形式差不多: ...
Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍
最近在跟着一个大佬学习Hadoop底层源码及架构等知识点,觉得有必要记录下来这个学习过程.想到了这个废弃已久的blog账号,决定重新开始更新. 主要分以下几步来进行源码学习: 一.搭建源码阅读环境二. ...
Hadoop源码学习笔记之NameNode启动场景流程四：rpc server初始化及启动
老规矩,还是分三步走,分别为源码调用分析.伪代码核心梳理.调用关系图解. 一.源码调用分析根据上篇的梳理,直接从initialize()方法着手.源码如下,部分代码的功能以及说明,已经在注释阐述了. ...
Hadoop源码学习笔记之NameNode启动场景流程五：磁盘空间检查及安全模式检查
本篇内容关注NameNode启动之前,active状态和standby状态的一些后台服务及准备工作,即源码里的CommonServices.主要包括磁盘空间检查. 可用资源检查.安全模式等.依然分为三 ...
Hadoop源码学习笔记之NameNode启动场景流程二：http server启动源码剖析
NameNodeHttpServer启动源码剖析,这一部分主要按以下步骤进行: 一.源码调用分析二.伪代码调用流程梳理三.http server服务流程图解第一步,源码调用分析前一篇文章已经锁 ...

随机推荐

django系列1--介绍与简单原理, wsgiref模块
一.web应用框架 Web应用框架(Web application framework)是一种计算机软件框架,用来支持动态网站.网络应用程序及网络服务的开发.这种框架有助于减轻网页开发时共通性活动的工 ...
“全栈2019”Java第九十二章：外部类与内部类成员覆盖详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
vue 动态组件
动态组件多个组件通过同一个挂载点进行组件的切换,is的值是哪个组件的名称,那么页面就会显示哪个组件内置组件 (内置组件不会被渲染到页面上) component is属性 keep-aliv ...
C++多线程编程一
1.C++多线程初步: #include <iostream> #include <thread> #include <Windows.h> using names ...
jpetStore 学习总结(1)
最近学习了Springmvc4,对官方的例子jpetStore进行了分析研究,在官方网站下载spring-framework-2.5.6.SEC03,其中samples文件夹里就有jpetstore的 ...
bingoyes' tiny dream
Gauss Elimination bool Gauss(){ int now=1,nxt; double t; R(i,1,n){ //enumerate the column for(nxt=no ...
CodeForces - 1025B Weakened Common Divisor
http://codeforces.com/problemset/problem/1025/B 大意:n对数对(ai,bi),求任意一个数满足是所有数对中至少一个数的因子(大于1) 分析: 首先求所有 ...
[性能测试]：内存泄漏以及MAT(Memory Analyzer Tool)工具使用分析
一.今天在查看服务器时候,发现内存使用率直接就到99%了, 二.用ps -uaxw查看一下,每个占用内存较多的进程情况: 三,挑出可疑的进程,生成dump文件: jmap -dump:format=b ...
springboot(十二)-分布式锁（redis）
什么是分布式锁? 要介绍分布式锁,首先要提到与分布式锁相对应的是线程锁.进程锁. 线程锁:主要用来给方法.代码块加锁.当某个方法或代码使用锁,在同一时刻仅有一个线程执行该方法或该代码段.线程锁只在同一 ...
MySQL 创建schema
create schema zzz default character set utf8 collate utf8_general_ci;--创建数据库 grant select,insert,upd ...

Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类

Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类的更多相关文章

随机推荐

热门专题