Hadoop基础-HDFS的读取与写入过程
Hadoop基础-HDFS的读取与写入过程
作者:尹正杰
版权声明:原创作品,谢绝转载!否则将追究法律责任。
为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样的,我们需要详细介绍一下HDFS的读取以及写入过程,本篇博客的观点是在我读《Hadoop权威指南,大数据的存储与分析》整理的笔记。
一.剖析HDFS文件读取

上图显示了HDFS在读取文件时事件的发生顺序。大致总结为以下几个步骤:
1>.客户端通过调用FileSystem对象的open()放啊来打开希望读取的文件,对于HDFS来说,这个对象DistributedFileSystem的一个实例;
2>.DistributedFileSystem通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置;对于每一个块,NameNode返回存有该块的副本的DataNode地址。此外,这些DataNode根据它们与客户端的距离来排序(根据集群的网络拓扑,详情请参考:https://www.cnblogs.com/yinzhengjie/p/9142230.html)。如果该客户端本身就是一个DataNode(比如,在一个MapReduce任务中),那么该客户端将会从保存有相应的数据块副本的本地DataNode读取数据;
3>.DistributedFileSystem类返回一个FSDataInputStream对象(一个支持文件定位的输入流)给客户端以便读取数据。FSDataInputStream类转而封装DFSInputStream对象,对该对象管理着DataNode和NameNode的I/O,接着,客户端对这个输入流调用read()方法;
4>.存储着文件起始几个块的DataNode地址的DFSInputStream随即连接距离最近的文件中第一个块所在的DataNode。通过对数据流反复调用read()方法,可以将数据从DataNode传输到客户端;
5>.到达块末端时,DFSInputStream关闭该DataNode的连接,然后找寻下一个块的最佳DataNode。所有这些对于客户端都是透明的,在客户看来它一直在读取一个连续的流;
6>.客户端从流中读取数据时,块是按照打开DFSInputStream与DataNode新建连接的顺序读取的。他也会根据需要询问NameNode来检索下一批数据块的DataNode的位置。一旦客户端完成读取,就对FSDataInputStream调用close()方法;
在读取数据的时候,如果DFSInputStream在与DataNode通信时遇到错误,会尝试这个块的另一个最近DataNode读取数据。他也会记住那个故障DataNode,以保证以后不会反复读取该节点上后续的块。DFSInputStream也会通过校验和确认从DataNode发来的数据是否完整。如果发现有损失的块,DFSInputStream会试图从其它DataNode读取其副本,也会将抒怀的块通知给NameNode。
这个设计一个重点是,客户端可以直接链接到DataNode检索数据,且NameNode告知客户端每个块所在的最佳DataNode。由于数据流分散在集群中所有DataNode,所以这种设计能够使HDFS扩展到大量的并发客户端。同时,NameNode只需要相应块位置的请求(这些信息存储的在内存中,因而非常高效),无需相应数据请求,否则随着科幻数量的增长,NameNode会很快称为瓶颈。
二.剖析HDFS文件写入
、
接下来我们看看文件是如何写入HDFS的,尽管比较详细,但对于理解数据流还是很有用的,因为它清楚说明了HDFS的一致模型。我们要考虑是如何新建一个文件,把数据写入该文件,最后关闭该文件。上图显示了HDFS在写入文件时事件的发生顺序,大致总结为以下几个步骤:
1>.客户端通过对DistributedFileSystem对象调用create()来新建文件;
2>.DistributedFileSystem对NameNode创建一个RPC调用,在文件系统的命名空间中新建一个文件,此时该文件中还没有形影的数据块。NameNode执行各种不同的检查以确保这个文件不存在以及客户端有新建该文件的权限。如果这个检查均通过,NameNode就会创建新文件记录一条记录;否则,文件创建失败并向客户端抛出一个IOException 异常。DistributedFileSystem向客户端返回一个FSDataOutputStream对象,由此客户端可以开始写入数据。就像读取事件一样,FSDataOutputStream封装一个DFSoutPutStream对象,该对象负责处理DataNode和NameNode之间的通信;
3>.在客户端写入数据时吗,DFSOutputStream将它分为一个个的数据包(每个packet大小为64k),当包满了之后,也就是数据大于64k,数据会并写入内部队列,称为“数据队列”(data queue)。DataStreamer 处理数据队列,它的责任是挑选出适合存储数据副本的一组DataNode,并据此来要求NameNode分配新的数据块。这一组DataNode构成一个管线,我我们假设副本数为3,所有管线中有3个节点。
4>.DataStream将数据包流式传输到管线中第一个DataNode,该DataNode存储数据包并将它发送到管线中的第二个DataNode。同样,第二个DataNode存储该数据包并且发送给管线中的第三个(也是最后一个)DataNode;
5>.DFSOutputSteam也维护着一个内部数据包队列来等待DataNode的收到确认回执,称为“确认队列”(ack queue)。收到管道中所有DataNode确认信息后,该数据包才会从确认队列删除。如果任何DataNode在数据写入期间发生故障,则执行一下操作(对写入数据的客户单是透明的,也就是说客户端根本体验不到这个过程)。首先关闭管线,确认把队列中的所有数据包都添加回数据队列的前端,以确保故障节点下游的DataNode不会漏掉任何一个数据包。为存储在另一正DataNode的当前数据块指定一个新的标识,并将该标识传送给NameNode,以便挂账DataNode在恢复后可以删除存储的部分数据块。从管线中删除故障DataNode,基于两个正常DataNode构建一条新管线。余下的数据块写入管线中正常的DataNode。NameNode注意到块副本量不足时,会在另一个节点上穿件一个新的复本。后续的数据块继续正常接受处理。在一个块被写入期间可能会有多个DataNode同时发生故障,但非常少见。只要写入了“dfs.namenode.repliocation.min”的副本数(默认为1),写操作就会成功,并且这个块在集群中异步复制,直到达到其目标副本数(dfs.replication的默认值为3)。
6>.客户端完成数据的写入后,对数据流调用close()方法。
7>.该操作将剩余的所有数据包写入DataNode管线,对数据流调用close()方法。该操作将剩余的所有数据包写入DataNode管线,并在联系到NameNode告知其文件写入完成之前,等待确认。NameNode已经知道文件由哪些块组成(因为Datastreamer请求分配数据块),所以他在返回成功前只需要等待数据块进行最小量的复制。
三.写入过程代码调试片段
1>.DFSPacket的格式说明

上图是调试代码时Hadoop的部分源码注释,为了方便理解,我们可以大致画一个DFSPacket结构图,如下:

上图你可能会问126是怎么来的?其实用一个计算公式算出来的,一个包的大小是64k,换算成字节则为:65536字节,而一个chunk的大小为512字节,每个chunk都会进行依次校验,而每个循环冗余校验大小为4个字节,包头信息会占用33个字节,因此我们就得到了一个计算DFSPacket个数的公式:(65536 - 33)/(512 + 4) = 126.9437984496124 ,很显然一个packet装不下127个chunk,故一个包中,最多能存储126个chunk。
2>.flushBuffer
我们在FSOutputSummer中的flushBuffer中可以看到writeChecksumChunks(4608)的字样,说明它是每隔4608字节进行一次flushBuffer,这个4608是怎么来的呢?4608=512x9,而512是对数据进行校验的基本单位。

四.副本的存储选择
NameNode如何选择在哪个DataNode存储副本(replica)?我们要从以下三个角度考虑:
1>.可靠性;
2>.写入带宽;
3>.读取带宽;
接下来我们举两个极端的例子,把所有的副本都存储在一个节点上,损失的写入写入带宽最小,因为复制管线都是在同一个节点上运行。但这个并不提供给真实的冗余,如果节点发生故障,那么该块中的数据会丢失。同时,同一机架服务器键的读取带宽是很高的。另一个极端,把复本放在不同的数据中心可能最大限度的提高冗余,但带宽的损耗非常大。即使在同一个数据中心。到目前为止,所有Hadoop集群军郧县在同一个数据中心内,也有很多可能数据布局策略。
Hadoop的默认布局策略是在运行客户端的节点上放第一个复本(如果客户端运行在集群之外,就随机选择一个节点,不过系统会避免挑选那些存储太满或太忙的节点)。第二个复本放在与第一个不同且随机另外选择的机架中节点上(离架)。第3个副本与第二个副本放在同一个机架上,且随机选择另一个节点。其它副本放在集群中随机选择的节点上,不过系统会尽量避免在同一个机架上放太多的副本。一旦选定副本的存放位置,就根据网络拓扑创建一个管线,如果副本数为3,则如下图所示的管线。

总的来说,这一方法不仅提供很好的稳定性(数据块存储在两个机架中)并实现很好的负载均衡,包括写入带宽(写入操作只需要遍历一个交换机),读取性能(可以从两个机架中选择读取)和集群中块中均匀分布(客户端只在本地机架上写入一个块)。
Hadoop基础-HDFS的读取与写入过程的更多相关文章
- Hadoop基础-HDFS的读取与写入过程剖析
		
Hadoop基础-HDFS的读取与写入过程剖析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简要介绍hadoop的写入过程,并不会设计到源码,我会用图和文字来描述hdf ...
 - Hadoop基础-HDFS数据清理过程之校验过程代码分析
		
Hadoop基础-HDFS数据清理过程之校验过程代码分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需 ...
 - Hadoop基础-Hdfs各个组件的运行原理介绍
		
Hadoop基础-Hdfs各个组件的运行原理介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
 - Hadoop基础-HDFS的API实现增删改查
		
Hadoop基础-HDFS的API实现增删改查 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客开发IDE使用的是Idea,如果没有安装Idea软件的可以去下载安装,如何安装 ...
 - Hadoop基础-HDFS分布式文件系统的存储
		
Hadoop基础-HDFS分布式文件系统的存储 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块 每个磁盘都有默认的数据块大小,这个磁盘 ...
 - Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法
		
Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. fs.listFiles方法,返回Loc ...
 - Hadoop基础-HDFS安全管家之Kerberos实战篇
		
Hadoop基础-HDFS安全管家之Kerberos实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道hadoop有很多不同的发行版,比如:Apache Hadoop ...
 - Hadoop基础-HDFS集群中大数据开发常用的命令总结
		
Hadoop基础-HDFS集群中大数据开发常用的命令总结 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
 - Hadoop基础-HDFS的API常见操作
		
Hadoop基础-HDFS的API常见操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记, 方便自己以后查看.在调用API ...
 
随机推荐
- 求int型数组和最大子数组  续
			
之前的博文里已经实现过该程序的构思.编译.运行,本次就不再重复与之相雷同的内容. 题目:与别人借组,借助求int型数组最大和子数组的问题,考虑大数溢出和int取值范围的问题 要求: 调试程序 当子数 ...
 - P2P通讯原理
			
1.简介 当今互联网到处存在着一些中间件(MIddleBoxes),如NAT和防火墙,导致两个(不在同一内网)中的客户端无法直接通信.这些问题即便是到了IPV6时代也会存在,因为即使不需要NAT,但还 ...
 - JavaBean 与 EJB 的区别
			
JavaBean在一般情况下指的是实体类,在大部分情况下和POJO是同义词,基本构成就是一些字段和与之对应的 setter.getter方法,如果一个JavaBean需要在不同的JVM的进程中进行传递 ...
 - mybati内sql查询语句在两个日期内
			
装载自: http://blog.csdn.net/u010442302/article/details/72902441?locationNum=9&fps=1 <select i ...
 - awk4.0对数组value排序
			
有朋友问了一个问题,要求对下面这段文本进行处理: http://www.baidu.com/2.html http://www.baidu.com/2.html http://www.baidu.co ...
 - selenium使用execl实现数据驱动测试
			
import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.uti ...
 - git 常用命令总结(一)
			
1.初始化版本库: .进入工程根目录目录 .创建项目目录 mkdir 项目目录名称 .进入创建的项目中 cd 项目名称 pwd 显示当前目录 .项目初始化 git init //完成后会在项目目录下生 ...
 - 【百度】大型网站的HTTPS实践(三)——HTTPS对性能的影响
			
HTTPS在保护用户隐私,防止流量劫持方面发挥着非常关键的作用,但与此同时,HTTPS也会降低用户访问速度,增加网站服务器的计算资源消耗.本文主要介绍HTTPS对性能的影响. HTTPS对访问速度的影 ...
 - Java VM 环境配置过程要点( win10,64位)
			
好些教程写的都不一样.留个脚印免得以后再安装的时候找不到完全合适的教程. 注:JDk中就有java虚拟机,即JRE.除此之外,还有许多的命令包,供java程序员使用. 安装要点: (1)安装jre(j ...
 - 最小费用流spfa算法模板(pascal)
			
以前写过,现在的码风与以前有些变化,主要是用数组模拟邻接表存图,以前是用指针存图. 以前的博文:http://www.cnblogs.com/Currier/p/6387732.html 洛谷可评测. ...