HDFS读写过程

HDFS的读写过程：

读过程：

Client收到用户的读请求——client拿着path向namenode请求文件或者block的datanode列表——client从返回的datanode列表中选择一个离自己最近的datanode，并且向他请求数据——datanode接到请求返回block的数据

读过程：

DFSInputStream对象中包含文件开始部分的数据块所在的DataNode地址，首先它会链接包含文件第一个块最近的DataNode。随后，在数据流中重复调用read函数，知道这个块全部读完位置，当最后一个块读取完毕时，DFSInputStream会关闭连接，并查找存储下一个数据块客户端最近的DataNode。客户端按照DFSInputSttream打开和DataNode连接返回的数据流的顺序读取该块，它会调用NameNode来检索下一组块所在的DataNode的位置信息。

写过程：client接到用户的写请求——client接收到数据，分割成一个个block——client请求namenode，并说明写入的数据大小和备份数——namenode返回给client需要的datanode列表——client写入第一个datanode，以packet的形式写入，一个packet一般为64k；第一个datanode写入第二个datanode，依次类推；每写入一个datanode都会返回ack信息，第一个datanode返回所有的ack信息；当datanode持久化数据后向namenode汇报已经完成——client接收到ack，检查所有datanode都写入正常，发送请求给namenode要求关闭文件——namenode关闭文件。

写过程：DFSOutputStream将文件分割成包，然后放入一个内部队列。DataStreamer会将这些小的文件包放入数据流中。

副本写过程：假设副本系数为3，当本地临时文件累积到一个数据块的大小（累积量超过一个数据块的大小），客户端会从NameNode获取一个Datanode列表用于存放副本，然后客户端开始向第一个Datanode传输数据，第一个Datanode一小部分一小部分（4kb）接收数据，将每一部分写入本地仓库，并同时传输到该部分到列表中第二个Datanode节点，第二个Datanode也是这样所以，Datanode采取流水线复制，从前一个节点接收数据，并在同时转发给下一个节点。

HDFS读写过程的更多相关文章

Hadoop学习总结之二：HDFS读写过程解析
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
Hadoop源码分析(1)：HDFS读写过程解析
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
HDFS 文件读写过程
HDFS 文件读写过程 HDFS 文件读取剖析客户端通过调用FileSystem对象的open()来读取希望打开的文件.对于HDFS来说,这个对象是分布式文件系统的一个实例. Distributed ...
Hadoop之HDFS文件读写过程
一.HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get( ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
Hadoop -- HDFS 读写数据
一.HDFS读写文件过程 1.读取文件过程 1) 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2) FileSyst ...
HBase 文件读写过程描述
HBase 数据读写过程描述我们熟悉的在 Hadoop 使用的文件格式有许多种,例如: Avro:用于 HDFS 数据序序列化与 Parquet:常见于 Hive 数据文件保存在 HDFS中 HFi ...
【转】HDFS读写流程
概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现. 特点如下: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性流式数据访问 ...
HBase的简单介绍，寻址过程，读写过程
HBase是列族数据库,主要由,表,行键,列族,列标识,值,时间戳组成, 表其中HBase 主要底层存储依赖与hdfs,可以在HDFS中看到每个表名都作为一个独立的目录结构 ...

随机推荐

《css定位 position》课程笔记
这是我学习课程css定位 position时做的笔记! 本节内容 html的三种布局方式 position可选参数 z-index 盒子模型和定位的区别侧边栏导航跟随实例 html的三种布局方式三 ...
try{}catch(e){}不能捕获到异常
只能捕获到ReferenceError异常,I don't know why. try{ aa();//这是一个未被定义的方法 }catch(e){ if(e instanceof Reference ...
Git 2.0 更改 push default
近期更新了git,项目push时会提示这样的信息: warning: push.default 尚未设置,它的默认值在 Git 2.0 已从 'matching' 变更为 'simple'.若要不再显 ...
------- 软件调试——挫败 QQ.exe 的内核模式保护机制 -------
------------------------------------------------------------------------ QQ 是一款热门的即时通信(IM)类工具,在安装时刻会 ...
javascript中的BOM对象
1.window对象所有的浏览器都支持window对象概念上讲,一个html文档对应一个window对象功能上讲,控制浏览器窗口使用上讲,window对象不需要创建对象,直接使用 2.wind ...
Spring源码情操陶冶-PropertyPlaceholderBeanDefinitionParser注解配置解析器
本文针对spring配置的context:property-placeholder作下简单的分析,承接前文Spring源码情操陶冶-自定义节点的解析 spring配置文件应用 <context: ...
Java设计模式——策略模式
策略模式的定义: 策略模式其实特别好理解,俗话说得好,条条大路通罗马,做的都是一件事,实现的方式却可以千万种,在这种情况下,如何使得每个人都可以根据自己的喜好来选择具体的方式,在调用时可以根据不同方式 ...
BZOJ 1927: [Sdoi2010]星际竞速 [上下界费用流]
1927: [Sdoi2010]星际竞速题意:一个带权DAG,每个点恰好经过一次,每个点有曲速移动到他的代价,求最小花费不动脑子直接上上下界费用流过了... s到点连边边权为曲速的代价,一个曲速移 ...
Python高级用法总结
Python很棒,它有很多高级用法值得细细思索,学习使用.本文将根据日常使用,总结介绍Python的一组高级特性,包括:列表推导式.迭代器和生成器.装饰器. 列表推导(list comprehensi ...
LeetCode - 657. Judge Route Circle
Initially, there is a Robot at position (0, 0). Given a sequence of its moves, judge if this robot m ...

HDFS读写过程

HDFS读写过程的更多相关文章

随机推荐

热门专题