hdfs的读: 

   

首先客户端通过调用fileSystem对象中的open()函数读取他需要的的数据,fileSystem是DistributedFileSystem的一个实例,
DistributedFileSystem会通过rpc协议和nameNode通信,来确定请求文件块所在的位置。对于每个返回的块都包含, 该块所在的dataNode的地址,然后这些返回的dataNode,会按照hadoop定义的集群拓扑结构得出dataNode与客户端的距离,然后进行排序。如果客户端本身就是一个dataNode,那么他将从本地读取文件
    DistributedFileSystem会返回给客户端一个支持文件定位的输入流对象FSDataInputStream,这个对象有个子类DFSdataInputStream,这个对象管理nameNode和dataNode之间的io
    当以上步骤完成后,DFSdataInputStream会调用父类DataInputStream的read()方法。DFSdataInputStream包含文件开始部分数据块的dataNode地址,他会先调用最近的块包含的dataNode节点,然后重复的调用read函数,直到这个块上的数据读取完毕。当最后一个块读取完后,DFSdataInputStream会关闭链接,并查找下一个距离客户端最近的包含块的dataNode
    客户端按照DFSdataInputStream的打开和dataNode连接返回数据流的顺序读取该块,它也会调用nameNode检索下一组包含块的dataNode的位置,当所有的dataNode的块都读取完后,他会再调用FSDataInputSetream的close()函数
    hdfs也考虑到读取节点失败的情况,他是这样处理的:如果客户端和所连接的dataNode出现故障的时候,他会读取下一个里客户端最近的一个dataNode,并记录上一个dataNode的失败信息,这样他就不会继续连接这个块,客户端还会验证从dataNode传过来的数据校验和,如果发现损坏的块,客户端将会寻找下一个块,向nameNode报告这个信息,nameNode将会保存更新这个文件
    这里注意下:当客户单跟nameNode进行连接时,nameNode只是返回客户端请求包含块的dataNode地址,并不是返回请求块的数据,这样做好处是:可以使hdfs扩展到更大规模的客户端并行处理,这是因为数据的流动是在nameNode间分散进行处理,nameNode只返回dataNode的地址,同时也减轻了nameNode的压力,这样就避免了随着客户端的增加nameNode成了颈瓶
    
hdfs的写:
    客户端会DistributedFileSystem对象的一个create()函数,这个对象会通过rpc协议与nameNode进链接,在nameNode的文件命名空间中创建一个新文件,这是的文件还未和dataNode进行关联
    nameNode会通过多种验证判断新的文件不存在文件系统中,并且客户端拥有创建文件的权限,当所有校验都通过后,才会创建文件。失败就抛出一个ioException异常,成功就会返回一个支持文件定位的输出流FSDataOuputStream对象,这个对象包含了一个DFSdataOutputStream对象,这个对象是用来供客户端写入数据用的,客户端可以用他来处理nameNode和dataNode之间的通信
    DFSDataOutputStrean会将文件分割成包,放入数据队列中,dataStream向nameNode请求这些新的文件包分配合适的dataNode
    

hdfs的读写数据流的更多相关文章

  1. HDFS 文件读写过程

    HDFS 文件读写过程 HDFS 文件读取剖析 客户端通过调用FileSystem对象的open()来读取希望打开的文件.对于HDFS来说,这个对象是分布式文件系统的一个实例. Distributed ...

  2. hdfs api读写文写件个人练习

    看下hdfs的读写原理,主要是打开FileSystem,获得InputStream or OutputStream: 那么主要用到的FileSystem类是一个实现了文件系统的抽象类,继承来自org. ...

  3. HDFS04 HDFS的读写流程

    HDFS的读写流程(面试重点) 目录 HDFS的读写流程(面试重点) HDFS写数据流程 网络拓扑-节点距离计算 机架感知(副本存储节点的选择) HDFS的读数据流程 HDFS写数据流程 客服端把D: ...

  4. HDFS的读写流程——宏观与微观

    HDFS的读写流程--宏观与微观 HDFS:分布式文件系统,负责存放数据 分布式文件系统:就是将我们的数据放到多台电脑上存储. 写数据:就是将客户端上的数据上传到HDFS 宏观过程 客户端向HDFS发 ...

  5. HDFS中的读写数据流

    1.文件的读取 在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解. 图 1 客户端从HDFS中读取数据 1)客户 ...

  6. 【Hadoop】二、HDFS文件读写流程

    (二)HDFS数据流   作为一个文件系统,文件的读和写是最基本的需求,这一部分我们来了解客户端是如何与HDFS进行交互的,也就是客户端与HDFS,以及构成HDFS的两类节点(namenode和dat ...

  7. hadoop笔记-hdfs文件读写

    概念 文件系统 磁盘进行读写的最小单位:数据块,文件系统构建于磁盘之上,文件系统的块大小是磁盘块的整数倍. 文件系统块一般为几千字节,磁盘块一般512字节. hdfs的block.pocket.chu ...

  8. 大数据系列2:Hdfs的读写操作

    在前文大数据系列1:一文初识Hdfs中,我们对Hdfs有了简单的认识. 在本文中,我们将会简单的介绍一下Hdfs文件的读写流程,为后续追踪读写流程的源码做准备. Hdfs 架构 首先来个Hdfs的架构 ...

  9. HDFS文件读写过程

    参考自<Hadoop权威指南> [http://www.cnblogs.com/swanspouse/p/5137308.html] HDFS读文件过程: 客户端通过调用FileSyste ...

随机推荐

  1. [Bundling and Minification ] 四、总结

    一.ASP.NET MVC 里面提供了一个默认的绑定集合BundleTable.Bundles 位于System.Web.Optimization下的静态类BundleTable中的一个静态变量.以下 ...

  2. sendEmail

    原文:http://blog.chinaunix.net/uid-16844903-id-308853.html 功能: 发邮件的客户端 官网地址: http://caspian.dotconf.ne ...

  3. TCP协议中的三次握手和四次挥手(图解)

    建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示: 先来看看如何建立连接的. 首先Client端发送连接请求报文,Server段接受连接后回复ACK报文,并为这次连接分配资 ...

  4. 基于MST的立体匹配及相关改进(A Non-Local Cost Aggregation Method for Stereo Matching)

    怀着很纠结的心情来总结这篇论文,这主要是因为作者提虽然供了源代码,但是我并没有仔细去深究他的code,只是把他的算法加进了自己的项目.希望以后有时间能把MST这一结构自己编程实现!! 论文题目是基于非 ...

  5. mui,css3 querySelector,appendChild,style.display,insertBefore

    <script> mui.init({ swipeBack:true //启用右滑关闭功能 }); window.addEventListener('toggle', function(e ...

  6. Linux文件计数

    1.当前目录下的文件数 ls -l |grep "^-"|wc -l 2.当前目录的目录树 ls -l |grep "^d"|wc -l 3.当前目录文件数包含 ...

  7. _UICreateCGImageFromIOSurface 使用API

    上传的时候,苹果发送邮件 Non-public API usage: The app references non-public symbols in DUO-LINK 4: _UICreateCGI ...

  8. 搭建vpn环境:centos7+openvpn

    vpn的含义:virtual private network vpn的作用/使用场景:最常见的一个作用,你通过公网来访问某个局域网里的主机/服务,其实就是搭建一个隧道,用公网传递你的数据包,等数据包到 ...

  9. BZOJ3110: [Zjoi2013]K大数查询

    喜闻乐见的简单树套树= =第一维按权值建树状数组,第二维按下标建动态开点线段树,修改相当于第二维区间加,查询在树状数组上二分,比一般的线段树还短= =可惜并不能跑过整体二分= =另外bzoj上的数据有 ...

  10. [NHibernate]增删改操作

    目录 写在前面 文档与系列文章 添加数据 删除数据 修改数据 添加修改数据 总结 写在前面 上篇文章介绍了nhibernate的基于面向对象的条件查询.对一个项目来说,增删改查是必不可少的,虽然实现方 ...