Hadoop权威指南:HDFS-数据流

剖析文件读取

  1. 客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例
  2. DistributedFiltSystem通过使用RPC来调用namenode,以确定文件起始块的位置.
  • 对于每一个块,namenode返回存有该块副本的datanode 的地址,这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑)
  • DistributedFileSystem类返回一个FSDataInputStream对象(一个支持文件定位的输入流)给客户端并读取数据
  • FSDataInputStream 类转而封装 DFSInputStream 对象, 该对象管理着 datanodenamenode 的 I/O操作.
  1. 接着, 客户端对这个输入流调用read()方法
  2. 存储着文件起始几个块的datanode地址的DFSInputStream随即连接距离最近的datanode, 通过对数据流反复调用read()方法, 可以将数据从datanode传输到客户端
  3. 到达块的末端时,DFSInputStream关闭与该datanode的连接, 然后寻找下一个块的最佳datanode

客户端只需要读取连续的流,并且对于客户端都是透明的

  1. 客户端从流中读取数据时,块是按照打开DFSInputStreamdatanode新建连接的顺序读取的.一旦客户端完成读取,就对FSDataInputStream调用cloase()方法

几点说明

  • 在读取数据的时候,如果DFSInputStreamdatanode通讯时遇到错误,会尝试从这个块的另外一个最邻近datanode读取数据,也会记住那个故障datanode
  • namenode告知客户端每个块中最佳的datanode, 并让客户端直接连接到该datanode检索数据
  • namenode只需要相应块位置的请求(这些信息储存在内存中)

剖析文件写入

  1. 客户端通过对DistributedFileSystem对象调用create()函数来新建文件
  2. DistributedFileSystemnamenode创建一个RPC调用, 在文件系统的命名空间中新建一个文件, 此时该文件中还没有相应的数据块
  3. namenode检查文件是否存在及客户端是否有该文件的权限
  • 检查通过,namenode就会为创建新文件记录一条记录
  • 否则,文件创建失败,并向客户端抛出一个IOException异常
  1. DistributedFileSystem向客户端返回一个FSDataOutputStream对象,由此客户端可以开始写入数据

    FSDataOutputStream封装一个DFSOutputStream对象, 该对象负责处理datanodenamenode之间的通讯

  2. 在客户端写入数据时,DFSOutputStream将它分成一个个的数据包, 并写入内部队列, 称为 "数据队列". DataStreamer处理数据队列,它的责任是根据datanode列表来要求namenode分配适合的新块来储存数据副本

  3. 客户端完成数据的写入后, 对数据流调用close()方法,该操作将剩余的所有数据包写入datanode管线,并在联系到namenode且发送文件写入完成信号之前,等待确认

  4. namenode已经知道文件由哪些块组成(通过DataStreamer请求分配数据块),所以它在返回成功前只需等待数据块进行最小量复制

一致模型

文件系统的一致模型(coherency model)描述了文件读写的数据可见性,HDFS为性能牺牲了一些POSIX要求

  • 新建一个文件之后,能在文件系统的命名空间中立即可见, 但是文件的内容不保证能立即可见,及时数据流已经刷新(out.flush())并存储
  • 当前正在写入的块对其他reader不可见,HDFS提供一个方法来使所有缓存与数据节点强行同步,即对FSDataOutputStream调用sync()方法.当sync()方法返回成功后,对所有新的reader而言,HDFS能保证文件中到目前为止写入的数据均到达所有datanode的写入管道并且对所有新的reader均可见
  Path p = new Path("p");
FSDataOutputStream out = fs.create(p);
out.write("content".getBytes("UTF-8"));
out.flush();
out.sync();
  • 在HDFS中关闭文件其实还隐含执行sync()方法

如果不调用sync()方法,在客户端或系统发生故障时可能还丢失数据块

Hadoop权威指南:HDFS-数据流的更多相关文章

  1. Hadoop权威指南:压缩

    Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...

  2. 《Hadoop权威指南》读书笔记1

    <Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...

  3. Hadoop权威指南:通过FileSystem API读取数据

    Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...

  4. Hadoop权威指南:从Hadoop URL读取数据

    [TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...

  5. Hadoop权威指南:数据完整性

    Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...

  6. Hadoop权威指南:HDFS-Hadoop存档

    Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...

  7. Hadoop权威指南:通过distcp并行复制

    Hadoop权威指南:通过distcp并行复制 distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中 distcp的典型应用是在两个 ...

  8. Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

    Hadoop权威指南:HDFS-目录,查询文件系统,删除文件 [TOC] 目录 FileSystem实例提供了创建目录的方法 public boolean mkdirs(Path f) throws ...

  9. Hadoop权威指南:HDFS-写入数据

    Hadoop权威指南:HDFS-写入数据 FileSystem类有一系列的新建文件的方法.最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流: public FSDat ...

随机推荐

  1. 程序ajax请求公共组件-- app-jquery-http.js

    $.HTTP = { getUrlParam : function (name) { var reg = new RegExp ("(^|&)" + name + &quo ...

  2. C# 开发系列(三)

    参考:http://stackoverflow.com/questions/11248935/passing-values-to-a-put-json-request-in-c-sharp 发送htt ...

  3. c循环程序

    6.用双循环打印n行如下图形. * *** ***** ******* 6 7 8 #include<stdio.h> 9 int main() 10 { 11 int i=0,j=0,n ...

  4. IOS开发中重写init方法使用需谨慎

    IOS开发中重写init方法使用需谨慎 今天在写一个小软件的时候出现一点问题,这个软件的功能是搜索全国学校,首页就是搜索输入框,在框中输入完要查询的学校所在省份,点击buttom后就会跳转到对应的视图 ...

  5. HTML学习(四)样式

    通过使用 HTML4.0,所有的格式化代码均可移出 HTML 文档,然后移入一个独立的样式表. 实例:例1:本例演示如何使用添加到 <head> 部分的样式信息对 HTML 进行格式化.& ...

  6. minor gc 和 full gc

    JAVA中关于GC的分析中,需要搞清楚,GC线程在什么时候,对什么东西,做了什么操作. 1-在什么时候 首先需要知道,GC分为minor GC和full GC,JAVA内存分为新生代和老年代,新生代中 ...

  7. VR元年,VR虚拟现实这只风口上的猪有怎样的变化?

    走过了2016年,无论我们承认不承认,这一年到底是不是VR元年,我们都很难否定,在这一年,VR虚拟现实生态圈有很大的变化,那么,这一年VR虚拟现实到底有怎样的改变呢?我们的VR虚拟现实生态圈,发生了什 ...

  8. 【转】分享一份C语言写的简历

    个人观点:文章想法很棒,作者的编码风格也很赞,可以从中学到不少东西.转载的文章是我都用心看过的,而且希望后续再可以回过头看的文章,努力让自己的能力越来越强,加油 这里黑客新闻吗?作者用代码更新了自己的 ...

  9. ASIHTTPRequest异步请求 分类: ios技术 2015-03-01 09:33 48人阅读 评论(0) 收藏

    我们运行程序,如果网速很慢,查询的时候会一直黑屏,直到请求结束画面才出现,这样用户体验很不好.因此同步请求一般只是在某个子线 程中使用,而不在主线程中使用.异步请求的用户体验要比同步请求好,因此一般情 ...

  10. HTML5离线应用与客户端存储

    序言 本篇文章会详细介绍使用HTML5开发离线应用的步骤,以及本地存储与cookie的一些异同,最后利用上面所学例子来实现一个购物车场景. 使用HTML5离线存储的基本过程如下: 离线检测:首先要对设 ...