解读HDFS（转载）

是蛮久木有写过关于hadoop的博客了额，虽然最近也看了一些关于linux的基础知识，但似乎把这个东西忘记了，其实时不时回顾一下以前的知识还是蛮有意思的，且行且忆！

我们Hadoop 主要由HDFS和MapReduce 引擎两部分组成。最底部是HDFS，它存储Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎，该引擎由JobTrackers 和TaskTrackers组成。

这篇博客就主要来讲讲HDFS吧~~~

HDFS是Hadoop Distributed File System的简称，既然是分布式文件系统，首先它必须是一个文件系统，那么在hadoop上面的文件系统会不会也像一般的文件系统一样由目录结构和一组文件构成呢？！分布式是不是就是将文件分成几部分分别存储在不同的机器上呢？！HDFS到底有什么优点值得这么小题大作呢？！......

好吧，让我们带着疑问一个个去探索吧！

一、HDFS基本概念

1、数据块

HDFS默认的最基本的存储单位是64M的数据块，这个数据块可以理解和一般的文件里面的分块是一样的

2、元数据节点和数据节点

元数据节点（namenode）用来管理文件系统的命名空间，它将所有的文件和文件夹的元数据保存在一个文件系统树中。

数据节点（datanode）就是用来存储数据文件的。

从元数据节点（secondarynamenode）不是我们所想象的元数据节点的备用节点，其实它主要的功能是主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并，以防日志文件过大。

这里先来弄清楚这个三种节点的关系吧！其实元数据节点上存储的东西就相当于一般文件系统中的目录，也是有命名空间的映射文件以及修改的日志，只是分布式文件系统就将数据分布在各个机器上进行存储罢了，下面你看看这几张说明图应该就能明白了！

Namenode与secondary namenode之间的进行checkpoint的过程。

3、HDFS中的数据流

读文件

客户端(client)用FileSystem的open()函数打开文件，DistributedFileSystem用RPC调用元数据节点，得到文件的数据块信息。对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。DistributedFileSystem返回FSDataInputStream给客户端，用来读取数据。客户端调用stream的read()函数开始读取数据。DFSInputStream连接保存此文件第一个数据块的最近的数据节点。Data从数据节点读到客户端(client)，当此数据块读取完毕时，DFSInputStream关闭和此数据节点的连接，然后连接此文件下一个数据块的最近的数据节点。当客户端读取完毕数据的时候，调用FSDataInputStream的close函数。

整个过程就是如图所示：

写文件

客户端调用create()来创建文件，DistributedFileSystem用RPC调用元数据节点，在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在，并且客户端有创建文件的权限，然后创建新文件。DistributedFileSystem返回DFSOutputStream，客户端用于写数据。客户端开始写入数据，DFSOutputStream将数据分成块，写入data queue。Data queue由Data Streamer读取，并通知元数据节点分配数据节点，用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。DFSOutputStream为发出去的数据块保存了ack queue，等待pipeline中的数据节点告知数据已经写入成功。如果数据节点在写入的过程中失败：关闭pipeline，将ack queue中的数据块放入data queue的开始。

整个过程如图所示：

HDFS构架与设计

Hadoop也是一个能够分布式处理大规模海量数据的软件框架，这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。Hadoop的可扩展——依赖于部署Hadoop软件框架计算集群的规模，Hadoop的运算是可扩展的，具有处理PB级数据的能力。

Hadoop 主要由HDFS（Hadoop Distributed File System）和MapReduce 引擎两部分组成。最底部是HDFS，它存储Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎，该引擎由JobTrackers 和TaskTrackers组成。

HDFS 可以执行的操作有创建、删除、移动或重命名文件等，架构类似于传统的分级文件系统。需要注意的是，HDFS 的架构基于一组特定的节点而构建（参见图2），这是它自身的特点。HDFS 包括唯一的NameNode，它在HDFS 内部提供元数据服务；DataNode 为HDFS 提供存储块。由于NameNode 是唯一的，这也是HDFS 的一个弱点（单点失败）。一旦NameNode 故障，后果可想而知。

1、HDFS构架（如图所示）

2、HDFS的设计

1）错误检测和快速、自动的恢复是HDFS的核心架构目标。

2）比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。

3）HDFS应用对文件要求的是write-one-read-many访问模型。

4）移动计算的代价比之移动数据的代价低。

3、文件系统的namespace

Namenode维护文件系统的namespace，一切对namespace和文件属性进行修改的都会被namenode记录下来，连文件副本的数目称为replication因子，这个也是由namenode记录的。

4、数据复制

Namenode全权管理block的复制，它周期性地从集群中的每个Datanode接收心跳包和一个Blockreport。心跳包的接收表示该Datanode节点正常工作，而Blockreport包括了该Datanode上所有的block组成的列表。HDFS采用一种称为rack-aware的策略来改进数据的可靠性、有效性和网络带宽的利用。完成对副本的存放。

5、文件系统元数据的持久化

Namenode在内存中保存着整个文件系统namespace和文件Blockmap的映像。这个关键的元数据设计得很紧凑，因而一个带有4G内存的 Namenode足够支撑海量的文件和目录。当Namenode启动时，它从硬盘中读取Editlog和FsImage，将所有Editlog中的事务作用（apply)在内存中的FsImage ，并将这个新版本的FsImage从内存中flush到硬盘上,然后再truncate这个旧的Editlog，因为这个旧的Editlog的事务都已经作用在FsImage上了。这个过程称为checkpoint。在当前实现中，checkpoint只发生在Namenode启动时，在不久的将来我们将实现支持周期性的checkpoint。

6、通信协议

所有的HDFS通讯协议都是构建在TCP/IP协议上。客户端通过一个可配置的端口连接到Namenode，通过ClientProtocol与 Namenode交互。而Datanode是使用DatanodeProtocol与Namenode交互。从ClientProtocol和 Datanodeprotocol抽象出一个远程调用(RPC），在设计上，Namenode不会主动发起RPC，而是是响应来自客户端和 Datanode 的RPC请求。

HDFS不是这么简单就能说清楚的，在以后的博客中我还会继续研究hadoop的分布式文件系统，包括HDFS的源码分析等，现由于时间有限，暂时只做了以上一些简单的介绍吧，希望对大家由此对HDFS有一定的了解！

解读HDFS（转载）的更多相关文章

MongoDB 走马观花(全面解读篇)(转载)
MongoDB 走马观花(全面解读篇)(转载) 目录一.简介二.基本模型 BSON 数据类型分布式ID 三.操作语法四.索引索引特性索引分类索引评估.调优五.集群分片机制副本集 ...
Hadoop记录-hdfs转载
Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需 ...
AbstractQueuedSynchronizer 源码解读（转载）
转载文章,拜读了一下原文感觉很不错,转载一下,侵删链接地址:http://objcoding.com/2019/05/05/aqs-exclusive-lock/ Java并发之AQS源码分析(一) ...
Ehcache详细解读（转载）
Ehcache 是现在最流行的纯Java开源缓存框架,配置简单.结构清晰.功能强大,最初知道它,是从Hibernate的缓存开始的.网上中文的EhCache材料以简单介绍和配置方法居多,如果你有这方面 ...
MongoDB 4.2 新特性解读（转载）
MongoDB World 2019 上发布新版本 MongoDB 4.2 Beta,包含多项数据库新特性,本文尝试从技术角度解读. Full Text Search MongoDB 4.2 之前,全 ...
转载：Java Lock机制解读
Java Lock机制解读欢迎转载: https://blog.csdn.net/chengyuqiang/article/details/79181229 1.synchronized synch ...
linux内核奇遇记之md源代码解读之四
linux内核奇遇记之md源代码解读之四转载请注明出处:http://blog.csdn.net/liumangxiong 运行阵列意味着阵列经历从无到有,建立了作为一个raid应有的属性(如同步重 ...
《机器学习实战》——k-近邻算法Python实现问题记录（转载）
py2.7 : <机器学习实战> k-近邻算法 11.19 更新完毕原文链接 <机器学习实战>第二章k-近邻算法,自己实现时遇到的问题,以及解决方法.做个记录. 1.写一个k ...
【抓取】6-DOF GraspNet 论文解读
[抓取]6-DOF GraspNet 论文解读 [注]:本文地址:[抓取]6-DOF GraspNet 论文解读若转载请于明显处标明出处. 前言这篇关于生成抓取姿态的论文出自英伟达.我在读完该篇论 ...

随机推荐

RecyclerView实现底部载入很多其它功能
这两天在公司没有什么任务分配,就研究了下咱们Google在Android5.0 推出的一个用来取代ListView的列表控件----RecyclerView. 发现功能上确实比ListView强大了不 ...
Adding Kentico controls to the Visual Studio toolbox
https://docs.kentico.com/k10/references/kentico-controls https://docs.kentico.com/k10/references/ken ...
如何在ubuntu中安装mysql与mysql workbench
安装过程如下 sudo apt-get install mysql-server 安装过程中随后设置mysql的密码之后sudo apt-get install mysql-client 安装好之后 ...
鲜为人知的 Windows 技能
IE/Edge 竟然可以转换图片格式 SVG 转 PNG.SVG 转 BMP 在图片上点击右键,选择"图片另存为" Windows/Office 屏幕录制 office 竟然带有屏 ...
APUE学习笔记7——进程间通信
1 管道管道一般是一种半双工的进程间通信方式,只能够在具有公共祖先的进程之间使用,比如一个管道由一个进程创建,然后该进程调用fork,之后父.子进程就可以使用该管道. 管道是调用pipe函数创建的. ...
BAT三家互联网公司哪家更注重用户体验？
这几天百度的用户体验又成了设计圈关注的对象,李彦宏好不容易刷出来的好感度一下子被打入了冰点,通过此次事件,不难看出现在的互联网用户对于产品的体验要求越来越高,作为一名美图秀秀级别选手,很难领悟“好设计 ...
第十一章 Python之异常处理
异常异常时程序运行时发生错误的信号(在程序错误时,则会产生一个异常,若程序没有处理,则会抛出该异常,程序的运行也随之终止) 常见的异常类型AttributeError 试图访问一个对象没有的树形,比 ...
ICMPv6和IPv6 NDP
1. ICMPv6 IPV4使用ICMP做很多事情,诸如目的地不可达等错误消息以及ping和traceroute等诊断功能.ICMPv6也提供了这些功能,但不同的是,它不是独立的第3层协议.ICMPV ...
Pyhton学习——Day51
model(数据库模型)------ORM----- 表与表之间的关系(两张表) 一对多多对多一对一 ORM------object relation mapping python的类 class ...
【洛谷4941】War2 状压Dp
简单的状压DP,和NOIP2017 Day2 找宝藏代码几乎一样.(比那个稍微简单一点) f[i][j] ,i代表点的状态,j是当前选择的点,枚举上一个选到的点k 然后从f[i-(1<< ...

解读HDFS（转载）

解读HDFS（转载）的更多相关文章

随机推荐

热门专题