Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍

最近在跟着一个大佬学习Hadoop底层源码及架构等知识点，觉得有必要记录下来这个学习过程。想到了这个废弃已久的blog账号，决定重新开始更新。

主要分以下几步来进行源码学习：

一、搭建源码阅读环境
二、源码项目结构概览及hdfs源码包结构简介
三、NameNode介绍

第一步，搭建源码阅读环境。

把Hadoop源码包导入到开发工具，eclipse或者idea都行。这里我的环境是mac os，使用的工具是idea，Hadoop版本为2.6.5。

首先，解压缩Hadoop源码包，可以选择移动解压之后的源码包到idea工作空间

然后打开idea，选择import project，指定工作空间里的源码包路径

选择maven，下一步

勾选红框内选项，下一步。

勾选红框内选项选项，下一步。

继续下一步，

点击完成，等待maven下载依赖，然后就导入成功了。

需要注意的是导入的时候maven需要下载很多依赖，所以这个过程可能会稍微长一些，耐心等候即可。

项目结构如下，

参考链接：https://blog.csdn.net/twj0823/article/details/84560878

第二步，项目结构概览及hdfs项目包简介。

Hadoop是一个庞大的项目，源码包导入idea之后，可以发现里面又按照功能分为很多不同的小项目，比较耳熟能详的有hdfs、mapreduce、yarn等，

还有别的一些功能性的组件以及新增的特性功能。点开Packages视图，包结构如下：

此处暂时只针对hdfs模块的NameNode进行分析。点开hadoop-hdfs之后，发现也是按照功能进行分包的结构：

　　可以自己查看一下各个包里的内容。namenode属于服务器上的一个进程，所以是在server包下。server包除了有namenode，还有datanode、

　　blockmanagement、common、protocol等包。先把目标锁定在namenode，里面大致有ha高可用、快照处理、启动进程、网络资源等模块

第三步，NameNode类简单介绍。

　　NameNode类在下边一堆的类文件中间的位置，至此，目标终于找到，开始切入正题了。阅读源码是一个非常好的学习方法，不仅可以学习到底层的

　　技术实现机制，还可以通过查看核心代码梳理整个调用流程。

　　首先，要学会看注释，除了通过梳理核心代码流程可以得知整个代码结构之外，通过注释可以更清晰的知道代码的意图。比如看一段繁杂的代码绕来绕去、

　　晕头转向，而注释就是专门给人看的东西，帮助我们在看代码的时候有一个大致的推测方向。

　　所以，NameNode的这段注释已经很明白的说明了NameNode的功能和构成：

/**********************************************************

 * NameNode serves as both directory namespace manager and

 * "inode table" for the Hadoop DFS.  There is a single NameNode

 * running in any DFS deployment.  (Well, except when there

 * is a second backup/failover NameNode, or when using federated NameNodes.)

 *

 * The NameNode controls two critical tables:

 *   1)  filename->blocksequence (namespace)

 *   2)  block->machinelist ("inodes")

 *

 * The first table is stored on disk and is very precious.

 * The second table is rebuilt every time the NameNode comes up.

 *

 * 'NameNode' refers to both this class as well as the 'NameNode server'.

 * The 'FSNamesystem' class actually performs most of the filesystem

 * management.  The majority of the 'NameNode' class itself is concerned

 * with exposing the IPC interface and the HTTP server to the outside world,

 * plus some configuration management.

 **********************************************************/

　　上面两段话主要是说，NameNode管理两类数据：

　　　　1.filename -> blocksequence (namespace)　

　　　　　文件到block的映射，上传的文件被切分为多个block(128m)，这份映射数据就是namespace，存储在磁盘上。

　　　　2.block -> machinelist (inodes)
　　　　　block到datanode的映射，每个block都会分配给一个datanode，每个block还有3个副本，也就是每个block对应多个datanode，

　　　　　这个映射数据就是inodes。在NameNode每次启动的时候，由datanode汇报过来的。

　　最下面一段话的字面意思是，NameNode主要由FSNamesystem、NameNode本身、NameNodeServer三部分构成。

　　其中，FSNamesystem是用来执行文件系统管理的，NameNode被用来处理外部的远程调用，包括HTTP服务以及一些配置管理。

　　这段话想表达什么意思呢？

　　FSNamesystem执行文件系统管理，这个好理解，就是负责管理元数据。

　　NameNode处理外部远程调用以及Http服务怎么理解？其实就是说，NameNode主要干了两件事情：

　　　　1.处理一些配置属性，就是core-site.xml、hdfs-site.xml等文件里的配置；

　　　　2.启动NameNodeServer(分为NameNodeHttpServer和NameNodeRpcServer)，对外监听某个端口，处理接收到的http/rpc请求。比如请求

　　　　　这两个server进行创建目录、上传/下载文件等一些操作。

　　以上就是NameNode的功能和组成的大概介绍。

　　然后，结合Linux上运行jar文件的经验，查看该jar的进程，发现进程名字其实就是jar中被指定执行的Java类文件名。Hadoop集群的主节点NameNode

　　进程也是如此，由此想进一步知道NameNode的启动流程，可以通过NameNode类的main()入口进去查看。下一篇继续进行源码深入剖析。

Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍的更多相关文章

【OSG学习笔记之一：】OSG+VS2010+win7 64位环境搭建
虽然出生的时候,没有说过“Hello World!”,但是自从走上了编程之路,每一次输出“Hello World!”的时候,都觉得好比中了彩票大奖似的: 仔细算算,从2012年暑假到现在,经历了3年半 ...
Qt Creator 源码学习笔记04，多插件实现原理分析
阅读本文大概需要 8 分钟插件听上去很高大上,实际上就是一个个动态库,动态库在不同平台下后缀名不一样,比如在 Windows下以.dll结尾,Linux 下以.so结尾开发插件其实就是开发一个动态 ...
Spring源码学习笔记12——总结篇,IOC，Bean的生命周期，三大扩展点
Spring源码学习笔记12--总结篇,IOC,Bean的生命周期,三大扩展点参考了Spring 官网文档 https://docs.spring.io/spring-framework/docs/ ...
RocketMQ 源码学习笔记————Producer 是怎么将消息发送至 Broker 的？
目录 RocketMQ 源码学习笔记----Producer 是怎么将消息发送至 Broker 的? 前言项目结构 rocketmq-client 模块 DefaultMQProducerTest ...
RocketMQ 源码学习笔记 Producer 是怎么将消息发送至 Broker 的？
目录 RocketMQ 源码学习笔记 Producer 是怎么将消息发送至 Broker 的? 前言项目结构 rocketmq-client 模块 DefaultMQProducerTest Roc ...
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构
Hadoop源码学习笔记(5) ——回顾DataNode和NameNode的类结构之前我们简要的看过了DataNode的main函数以及整个类的大至,现在结合前面我们研究的线程和RPC,则可以进一步 ...
Hadoop源码学习笔记(6)——从ls命令一路解剖
Hadoop源码学习笔记(6) ——从ls命令一路解剖 Hadoop几个模块的程序我们大致有了点了解,现在我们得细看一下这个程序是如何处理命令的. 我们就从原头开始,然后一步步追查. 我们先选中ls命 ...
Hadoop源码学习笔记(2) ——进入main函数打印包信息
Hadoop源码学习笔记(2) ——进入main函数打印包信息找到了main函数,也建立了快速启动的方法,然后我们就进去看一看. 进入NameNode和DataNode的主函数后,发现形式差不多: ...
Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类
Hadoop源码学习笔记(1) ——找到Main函数及读一读Configure类前面在第一季中,我们简单地研究了下Hadoop是什么,怎么用.在这开源的大牛作品的诱惑下,接下来我们要研究一下它是如何 ...

随机推荐

180328_gVim设置tab为4个空格
找到gVim安装目录 C:\Program Files (x86)\Vim\ 更改目录下的 _vimrc 文件,这是一个只读文件,需要管理员权限进行修改和保存. 在文件末尾添加下列内容: set ts ...
ORACLE AUDIT 审计
转自 http://blog.csdn.net/dnnyyq/article/details/4525980 1.什么是审计审计(Audit)用于监视用户所执行的数据库操作,并且Oracle会将审计 ...
pycharm something
e1:使用的版本2016.3 发现无法执行py程序,执行菜单为灰色.选择py为2.7. e2:使用过jython可以运行,但是语法有问题str.formate无法执行
SCCM2012安装、配置
1.sql server2012,排序规则选择:SQL_Latin1_General_CP1_CI_AS1.扩展AD架构2.打开ad用户和计算机,高级--system 容器授予 sccm服务器完全控 ...
umount nfs文件系统显示 umount.nfs: device is busy
网上的方法一般都是 fuser -m /nfs 查出进程号,然后杀死进程号,或者fuser -km /nfs直接杀死,我试了下都不行解决方法: 对于nfs文件系统来说,umount -l /nfs ...
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高验证码识别率
1.背景前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...
铁乐学Python_day12_作业
1.写函数,返回一个扑克牌列表,里面有52项,每一项是一个元组例如:[('红心',2),('草花',2), -('黑桃','A')] def poker(): suit = ['红心', '梅花', ...
FR共轭梯度法 matlab
% FR共轭梯度法 function sixge x0=[1,0]'; [x,val,k]=frcg('fun','gfun',x0) end function f=fun(x) f=100*(x(1 ...
Asp.net Core 2.0+EntityFrameWorkCore 2.0添加数据迁移
Asp.net Core 由于依赖注入的广泛使用,配置数据迁移,与Asp.net大不相同,本篇介绍一下Asp.net Core添加数据迁移的过程添加Nuget包 Install-Package Mi ...
JQuery Mobile+JS实现智能浮动定位导航条
实现原理主要用到几个知识点: 什么是scrollTop? CSS position定位判断是否为IE6浏览器元素相对于窗口的距离原理:1,浏览器向下滚动时,当document的scrollTo ...

Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍

Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍的更多相关文章

随机推荐

热门专题