1.概述

　　在完成分析Hadoop2源码的准备工作后，我们进入到后续的源码学习阶段。本篇博客给大家分享，让大家对Hadoop V2有个初步认识，博客的目录内容如下所示：

Hadoop的渊源
Hadoop V2部分项目图
各个包的功能介绍

　　本篇文章的源码是基于Hadoop-2.6.0来分析，其他版本的Hadoop的源码可以此作为参考分析。

2.Hadoop的渊源

　　其实，早年Google的核心竞争力是它的计算平台，Google对外公布的论文有一下内容：

GoogleCluster

Chubby

GFS
BigTable
MapReduce

　　可见MapReduce并不是Hadoop所独有的功能，之后Apache基金会得到类似的项目，这些项目有隶属于Hadoop项目，分别是：

ZooKeeper（Chubby）
HDFS（GFS）
HBase（BigTable）
MapReduce（Hadoop 这里是HDFS和MapReduce的统称）

　　类似于这种思想的开源项目还有很多，如：Yahoo用Pig来处理巨大数据，Facebook用Hive来进行用户行为分析等。Hadoop的两大核心功能分别为HDFS和MapReduce，MapReduce是一个适合做离线计算的框架，它依赖于HDFS，HDFS作为一个分布式文件存储系统，是所有这些项目的基础支撑。下图为HDFS的支撑图，如下图所示：

3.Hadoop V2部分项目图

　　Hadoop包与包之间依赖的关系较为复杂，究其原因为HDFS提供了一个分布式文件存储系统，该系统提供庞大的API，使得分布式文件系统底层的实现，依赖于某些高层的功能，这些功能互相引用，形成网状的依赖关系。举个例子，如conf包，它用于读取系统配置文件，依赖于fs包，主要是读取相应的配置文件时，需要使用到文件系统，而部分文件系统的功能都被抽象在fs包中。下图时Hadoop V2项目的核心部分依赖包，如下图所示：

　　后面的章节，主要给大家分享以下几个部分，如：mapreduce，fs，hdfs，ipc，io，yarn。

4.各个包的功能介绍

　　下面对上图列出来的各个包做下介绍说明，各个包的功能如下所示：

tools：提供命令行工具，如DistCp，archive等等。
mapreduce v2:Hadoop V2版本对Map/Reduce的实现。
filecache：让HDFS拥有本地缓存，以便加快MR的数据访问速度。
hdfs v2：Hadoop V2的分布式文件系统实现。
fs：文件系统的抽象包，为支持多种文件系统（有可能还有其他的文件系统）规范统一的文件访问接口。
ipc：依赖 io 提供的编码和解码功能。
io：编码和解码数据，以便在网络中传输。
net：对网络功能进行封装，如Socket。
conf：配置系统的参数。
util：工具类。
ha：配置高可用的集群，使集群拥有两个NameNode（active和standby）。
yarn：Hadoop V2 版本新添加的特性，用于资源调度和管理。

5.总结

　　Hadoop V2在底层设计上对比Hadoop V1是有区别的，新增HA，使得Hadoop V1中存在的单点问题得到了很好得解决；Hadoop V2新增Yarn系统，使得集群得资源管理和调度更加得完美，大大减少ResourceManager的资源消耗，并且让监测每一个 Job 子任务 (tasks) 状态的程序分布式化了，更安全、更优美。同时，使得多种计算框架可以运行在一个集群中。

6.结束语

　　这篇文章就和大家分享到这里，如果大家在研究和学习的过程中有什么疑问，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Hadoop2源码分析－Hadoop V2初识的更多相关文章

Hadoop2源码分析－RPC机制初识
1.概述上一篇博客,讲述Hadoop V2的序列化机制,这为我们学习Hadoop V2的RPC机制奠定了基础.RPC的内容涵盖的信息有点多,包含Hadoop的序列化机制,RPC,代理,NIO等.若对 ...
Hadoop2源码分析－HDFS核心模块分析
1.概述这篇博客接着<Hadoop2源码分析-RPC机制初识>来讲述,前面我们对MapReduce.序列化.RPC进行了分析和探索,对Hadoop V2的这些模块都有了大致的了解,通过对 ...
Hadoop2源码分析－RPC探索实战
1.概述在<Hadoop2源码分析-RPC机制初识>博客中,我们对RPC机制有了初步的认识和了解,下面我们对Hadoop V2的RPC机制做进一步探索,在研究Hadoop V2的RPC机 ...
Hadoop2源码分析－MapReduce篇
1.概述前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapred ...
Hadoop2源码分析－YARN 的服务库和事件库
1.概述在<Hadoop2源码分析-YARN RPC 示例介绍>一文当中,给大家介绍了YARN 的 RPC 机制,以及相关代码的演示,今天我们继续去学习 YARN 的服务库和事件库,分享 ...
Hadoop2源码分析－YARN RPC 示例介绍
1.概述之前在<Hadoop2源码分析-RPC探索实战>一文当中介绍了Hadoop的RPC机制,今天给大家分享关于YARN的RPC的机制.下面是今天的分享目录: YARN的RPC介绍 Y ...
Hadoop2源码分析－准备篇
1.概述我们已经能够搭建一个高可用的Hadoop平台了,也熟悉并掌握了一个项目在Hadoop平台下的开发流程,基于Hadoop的一些套件我们也能够使用,并且能利用这些套件进行一些任务的开发.在Had ...
Hadoop2源码分析－序列化篇
1.概述上一篇我们了解了MapReduce的相关流程,包含MapReduce V2的重构思路,新的设计架构,与MapReduce V1的区别等内容,今天我们在来学习下在Hadoop V2中的序列化的 ...
Django day24 cbv和APIView的源码分析和 resful的规范
一:cbv的源码分析 1.CBV和FBV的区别: - Class Base View CBV(基于类的视图) - Function Base View FBV(基于函数的视图) 2.as_vi ...

随机推荐

（最大上升子序列）Monkey and Banana -- hdu -- 1069
http://acm.hdu.edu.cn/showproblem.php?pid=1069 Monkey and Banana Time Limit:1000MS Memory L ...
Spring AOP 中pointcut expression表达式
原文地址——http://blog.csdn.net/qq525099302/article/details/53996344 Pointcut是指那些方法需要被执行”AOP”,是由”Pointcut ...
Curl工具的使用
Curl命令可以通过命令行的方式,执行Http请求.在Elasticsearch中有使用的场景,因此这里研究下如何在windows下执行curl命令. 工具下载在官网处下载工具包:http:// ...
adb push 和 adb pull命令
adb push命令 :从电脑上传送文件到手机: adb pull命令 :从手机传送文件到电脑上 @Cocos 下次需要权限的目录可以执行chmod 777 目录名 ...
DevExpress控件cxGrid实现多列模糊匹配输入的完美解决方案
本方案不需要修改控件源码,是完美解决cxgrid或TcxDBExtLookupComboBox支持多列模糊匹配快速输入的最佳方案!! 转自https://blog.csdn.net/qq5643020 ...
cxgrid强大用法
cxgrid强大用法 (2012-07-25 14:09:42) 转载▼ 标签: delphi cxgrid 用法强大杂谈分类: Delphi cxGrid功能强大,适合做企业级的复杂查询.非常 ...
分形之谢尔宾斯基(Sierpinski)四面体
前面讲了谢尔宾斯基三角形,这一节的将对二维三角形扩展到三维,变成四面体.即将一个正四面体不停地拆分,每个正四面体可以拆分成四个小号的正四面体.由二维转变到三维实现起来麻烦了许多.三维的谢尔宾斯基四面体 ...
java 堆排序的实现
堆就是一个完全二叉树,堆要求是指该节点大于它的两个子节点.而两个字节点大小不一定. 堆排序的最坏时间复杂度为nlog(n),平均也为nlog(n),占用空间为o(1),是一种比较排序算法. 堆排序也 ...
Spring Security ——AuthenticationProvider
AuthenticationProvider 目录 1.1 用户信息从数据库获取 1.1.1 使用jdbc-user-service获取 1.1.2 直接使用JdbcDaoImpl ...
C# 使用Google Protocol Buffers
Google Protocol Buffers 使用3.0版本下载protoc.exe 下载链接 https://github.com/protocolbuffers/protobuf/releas ...

Hadoop2源码分析－Hadoop V2初识