Hadoop——HDFS的构架

在使用一个工具之前，应该先对它的机制、组成等有深入的了解，以后才会更好的使用它。下面来介绍一下什么是HDFS，以及他的构架是什么样的。

1.什么是HDFS？

Hadoop主要是用于进行大数据处理，那么如何有效的存储大规模的数据呢？显然，集中式的物理服务器保存数据是不现实的，其容量、数据传输速度等都会成为瓶颈。那么要实现海量数据的存储，势必要使用十几台、几百台甚至是更多的分布式服务节点。那么，为了统一管理这些节点上存储的数据，必须要使用一种特殊的文件系统——分布式文件系统。HDFS（Hadoop Distributed File System）就是Hadoop提供的一个分布式文件系统。

HDFS具有大规模数据分布式存储能力、高并发访问能力、强大的容错能力、顺序式文件访问、简单的一致性模型（一次写多次读）、数据块存储模式等优点。

2.HDFS的基本框架

2.1 Architecture

HDFS一Master-Slave模式运行，主要由两类节点：一个NameNode（即Master）和多个DataNode（即Slave），其框架图如下图所示：

2.2 NameNode、DataNode、JobTracker和TaskTracker

NameNode是一个主服务器，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件访问请求。

　　　NameNode保存了文件系统的三种元数据：

- 命名空间：即整个分布式文件系统的目录结构；
- 数据块与文件名的映射表；
- 每个数据块副本的位置信息，每一个数据块默认有3个副本。

　　2. DataNode。HDFS对外提供了命名空间，让用户的数据可以存储在文件中，但是在内部，文件可能被分成若干个数据块，DataNode用来实际存储和管理文件的数据块。

　　3. JobTracker对应于NameNode，TaskTracker对应于DataNode（如上图所示），NameNode与Datanode是针对数据存储而言的，JobTracker与TaskTracker是针对与MapReduce的执行而言的。

2.3 HDFS的基本文件访问过程

用户的应用程序通过HDFS的哭护短程序将文件名发送至NameNode；
NameNode接收到文件名之后，在HDFS目录中检索文件名对应的数据块，在根据数据块信息找到保存数据块的DataNode地址，将这些地址送回客户端；
客户端接收到这些DataNode地址之后，与这些DataNode并行的进行数据传输操作，同时将操作结果的相关日志提交到NameNode。

2.4 MapReduce的执行过程

JobClient会在客户端通过JobClient类将对应已经配置好的参数打包成Jar，存储到HDFS，并把路径提交到JobTracker，然后由JobTracker创建每一个Task（即Map Task和Reduce Task），并将它们分发到各个TaskTracker服务中执行；
JobTracker是一个master服务，软件启动后JobTracker接收Job，负责调度Job的每一个子任务task，并监控它们，如果发现有失败的Task就重新运行它；
TaskTracker是运行在多个节点上的Slave服务，运行在HDFS的DataNode节点上，主动与JobTracker通信，接收作业，并负责执行每一个任务。

2.5 SecondaryNameNode

Hadoop中使用SecondaryNameNode来备份NameNode备份NameNode的元数据，以便在NameNode失效时能从SecondaryNameNode恢复出NameNode上的元数据，它充当NameNode的一个副本，它本身并不处理任何请求，周期性保存NameNode的元数据

参考链接：

[1]. hadoop JobTracker和TaskTracker——http://wz102.blog.51cto.com/3588520/1327972

[2]. HDFS学习（三）—NameNode and DataNode——http://shitouer.cn/2012/12/hdfs-namenode-datanode/

[3]. 深入理解大数据-大数据处理与编程实践

Hadoop——HDFS的构架的更多相关文章

Hadoop HDFS 用户指南
This document is a starting point for users working with Hadoop Distributed File System (HDFS) eithe ...
Hadoop HDFS负载均衡
Hadoop HDFS负载均衡转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed ...
Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001
集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: T ...
Hadoop程序运行中的Error(1)-Error: org.apache.hadoop.hdfs.BlockMissingException
15/03/18 09:59:21 INFO mapreduce.Job: Task Id : attempt_1426641074924_0002_m_000000_2, Status : FAIL ...
Hadoop HDFS编程 API入门系列之HDFS_HA（五）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs3; import java.io.FileInputStream;import ...
Hadoop HDFS编程 API入门系列之简单综合版本1（四）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4; import java.io.IOException; import ja ...
[转]hadoop hdfs常用命令
FROM : http://www.2cto.com/database/201303/198460.html hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看H ...
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/hive/warehouse/page_view. Name node is in safe mode
FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.ipc.RemoteExceptio ...
Hadoop HDFS文件常用操作及注意事项
Hadoop HDFS文件常用操作及注意事项 1.Copy a file from the local file system to HDFS The srcFile variable needs t ...

随机推荐

优步UBER司机全国各地奖励政策汇总 (2月1日-2月7日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
成都Uber优步司机奖励政策（3月15日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
Ceres优化
Ceres Solver是谷歌2010就开始用于解决优化问题的C++库,2014年开源．在Google地图,Tango项目,以及著名的SLAM系统OKVIS和Cartographer的优化模块中均使用 ...
韩国KT软件NB-IOT开发记录V150（2）IOT maker通信相关
1. 测试的AT指令,创建端口和IP地址链接 AT#IMINIT=," 开始连接 AT#IMCONN 创建object ID AT#IMOBJMETA=,," 发送数据 AT#IM ...
Linux命令非常全
最近都在和Linux打交道,感觉还不错.这也是很多人喜欢linux的原因,比较短小但却功能强大.我将我了解到的命令列举一下,仅供大家参考: 系统信息 arch 显示机器的处理器架构(1) uname ...
Jmeter登录接口返回 status415
1.现象:在查看结果树中看到: Request Headers:Connection: keep-aliveContent-Type: application/x-www-form-urlencode ...
Quartz定时器原理与使用
Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,是一个完全由java编写的开源作业调度框架. Quartz可以用来创建简单或为运行十个,百个,甚至是好几 ...
vector：动态数组
vector是C++标准模板库中的部分内容,中文偶尔译作“容器”,但并不准确.它是一个多功能的,能够操作多种数据结构和算法的模板类和函数库.vector之所以被认为是一个容器,是因为它能够像容器一样存 ...
Python+Flask+Gunicorn 项目实战(一) 从零开始，写一个Markdown解析器 —— 初体验
(一)前言在开始学习之前,你需要确保你对Python, JavaScript, HTML, Markdown语法有非常基础的了解.项目的源码你可以在 https://github.com/zhu-y ...
【转载】JAVA常见面试题及解答（精华）
JAVA常见面试题及解答(精华) 1)transient和volatile是java关键字吗?(瞬联) 如果用transient声明一个实例变量,当对象存储时,它的值不需要维持.例如: ...

Hadoop——HDFS的构架

Hadoop——HDFS的构架的更多相关文章

随机推荐

热门专题