Hadoop源码分类概要整理

超大的雪童子 2024-11-08 04:41:35 原文

　　最近突然觉得，很多掌握的都还是很浅的原理，需要更深入细粒度去了解整个分布式系统的运转机制。于是。。开始作死而又作死而又作死的源码之旅。

　　Hadoop包的功能总共有下列几类：

　　tool:提供一些命令行工具，如DistCp,archive

　　mapreduce，:Hadoop的Map/Reduce实现

　　filecache:提供HDFS文件的本地缓存，用于加快Map/Reduce的数据访问速度

　　fs:文件系统的抽象，可以理解为支持多种文件系统实现的统一文件访问接口

　　hdfs:HDFS，Hadoop的分布式文件系统实现

　　ipc:一个简单的IPC的实现，依赖于IO提供的编解码功能

　　io:表示层，将各种数据编码/解码，方便在网络上的传输

　　net:封装部分网络功能，如DNS,socket

　　security:用户和用户组信息

　　conf:系统的配置参数

　　metrics:系统攻击数据的收集，用于网管范畴

　　util:工具类

　　record:根据DDL自动生成他们的编码函数，目前可以提供C++和java

　　http:基于Jetty的HTTP Servlet,用户通过浏览器可以观察文件系统的一些状态信息和日志

　　log:提供HTTP访问日志的HTTP Servlet

一、RPC

　　它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。

　 RPC采用客户机/服务器模式，请求程序就是一个客户机，而服务提供程序就是一个服务器。例如HDFS的通信就包括：

　　1、Client-NameNode之间，其中NameNode是服务器。

　　2、Client-DataNode之间，其中DataNode是服务器。

　　3、DataNode-NameNode之间，其中NameNode是服务器。

　　4、DataNode-DataNode之间，其中某一个DataNode是服务器，另一个是客户端。

　　org.apache.hadoop.rpc中包含Client类和Server类。Server类是一个抽象类，类RPC封装了Server,利用反射，把某个对象的方法开放出来，变成RPC中的服务器。

二、DataNode与NameNode

　　一个HDFS集群可能包含上千DataNode节点，这些DataNode定时与NameNode通信，为了减轻NameNode的负担，NameNode上并不永久保存DataNode上那些数据块信息，而是通过DataNode启动时上报，来更新NameNode上的映射表。

相关包：org.apache.hadoop.hdfs.server.common、org.apache.hadoop.hdfs.server.datanode...

　　所有和数据块相关的操作，都在FSDataset相关的类中进行处理，一个DataNode上可以指定多个Storage来存储数据块，由于HDFS规定了一个目录能存放Block的数目，所以一个storage上存在多个目录。对应的，FSDataset中用FSVolume来对应一个Storage,FSDir对应一个目录，所有的FSVolume由FSVolumeSet管理，FSDataset中通过一个FSVolumeSet对象，就可以管理它的所有存储空间。

相关包：org.apache.hadoop.hdfs.server.dataNode.fsDataSet

　　NameNode作为系统文件目录的管理者,DataNode关注的是数据块，NameNode保存的主要信息是文件名-数据块，数据块-DataNode列表。 DataNode实现了InterDatanodeProtocol和ClientDatanodeProtocol，剩下的，由NameNode实现。

　　相关包：org.apache.hadoop.hdfs.server.protocol、org.apache.hadoop.hdfs.protocol、org.apache.hadoop.hdfs.server.namenode (重点FSNamesystem.java)

三、MapReduce

　相关包:org.apache.hadoop.mapreduce.JobContext、org.apache.hadoop.mapreduce、org.apache.hadoop.mapreduce.lib.*(包含inputFomat等..)

　　这些还是很小的一部分，但是一点一点深入好了~

　　

Hadoop源码分类概要整理的更多相关文章

编译Hadoop源码
背景: 在阅读hadoop源代码过程中会发现部分类或者函数无法找到,这是由于Hadoop2.0使用了Protocol Buffers定义了RPC协议, 而这些Protocol Buffers文件在Ma ...
Hadoop源码编译过程
一. 为什么要编译Hadoop源码 Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通 ...
[导入]Eclipse 导入/编译 Hadoop 源码
http://www.cnblogs.com/errorx/p/3779578.html 1.准备工作 jdk: eclipse: Maven: libprotoc :https://develope ...
基于Eclipse搭建Hadoop源码环境
Hadoop使用ant+ivy组织工程,无法直接导入Eclipse中.本文将介绍如何基于Eclipse搭建Hadoop源码环境. 准备工作本文使用的操作系统为CentOS.需要的软件版本:hadoo ...
Eclipse 导入 Hadoop 源码
1.准备工作 jdk: eclipse: Maven: libprotoc :https://developers.google.com/protocol-buffers/ hadoop:http:/ ...
如何导入hadoop源码到eclipse
需要进一步学习hadoop.需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中. 简单总结一下,具体步骤如下: 首先确保已经安装了git.maven3.protobuf2.5.如果 ...
琐碎-将hadoop源码作为工程导入eclipse
之前写过如何用eclipse看hadoop源码,虽然非官方版的,但是可以达到目的,最重要是简单方便快速官方版(hadoop2.2.0)的也有: 源码目录为: 和之前的源码目录有很大的不同编译的时候 ...
安装Hadoop系列 — 导入Hadoop源码项目
将Hadoop源码导入Eclipse有个最大好处就是通过 "ctrl + shift + r" 可以快速打开Hadoop源码文件. 第一步:在Eclipse新建一个Java项目,h ...
hadoop源码导入eclipse
1,下载hadoop源码下载链接 http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0/ 为2.2.0的源码, 也可以 ...

随机推荐

Android ListView 设置单选
为 ListView 设置选中状态,需要经过如下几个步骤: 设置 ListView 的 android:choiceMode="singleChoice" 设置 ListView ...
JAVA正则表达式 Pattern和Matcher
java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包. 1.简介: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包. ...
mysql 中文乱码
2017-06-23（chmod whoami chown）
文件权限设定 chmod u-x newfile chmod u-x,g+w newfile chmod a=rwx newfile [mode=421] r = 4 , w=2, x=1 chmod ...
linux_文件系统
什么是文件系统? 存储和组织计算机数据文件的机制分区和格式化区别? 分区是给房子打隔断,分为厨房.卧室--,格式化相当于给房子装修,让其能够让数据住进去文件系统: 组织和管理文件格式化: 往分区 ...
如何让a标签的下划线去掉？
在css中添加 a{ text-decoration: none; }
原生JS实现百度搜索功能
今天呢给大家分享一下自己用原生JS做的一个百度搜索功能,下面上代码: <!DOCTYPE html> <html> <head> <meta charset= ...
Windows ftp脚本和RSCD agent自动安装脚本
Windows ftp脚本和bladelogic RSCD Agent自动安装脚本比较简单的命令是msiexec /I "C:\RSCD85-SP1-WIN64.msi" /Q ...
maven系列--maven常用命令
下一篇博客我会讲解用eclipse的m2插件来使用maven,这里先大概的了解下maven常用的命令.之后我在详细整理maven的生命周期,到时候会细致的讲解下这些指令应该要怎么使,maven都帮我们 ...
JavaScript 函数创建思想
//定义一个函数的步骤//1.开辟一个新的空间地址//2.把函数体里面的代码当做字符串存储到空间里面(一个函数如果只定义了,没有执行的话,这个函数没有任何意义)//3.在把我们的地址给我们的函数名fu ...