hdfs: 数据流（二）

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。

一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。

1. 读文件

从上图可以看出，客户端读取数据时，

首先从namenode获取如下信息（这些元数据信息是在内存中，所以查询速度很快，这个过程对客户端是透明的）：

a. 该文件有哪些数据块

b.这些数据块都放在哪里或者说是取哪个节点上的什么数据块

然后，客户端直接从datanode中以文件流的方式读取数据

最后，关闭这个文件流

一个问题：因为每个数据块都有三个备份，那么取哪个比较好？

选取读取代价最小的节点，首先会在同一个节点中选取（如果客户端也是datanode时），其次在同一个机架上的datanode中选取，最后再同一个机房中选取

hadoop会根据网络拓扑给每一个冗余数据块打分，原则就是考虑是否在同一个节点上，是否在相同的机架上，是否在同一个机房（目前hadoop不能跨机房部署）

2. 写文件

首先，客户端通知namenode：我要写文件了，确认客户端权限和没有相同的文件后，namenode创建一个新的文件记录

然后，将文件分成一个一个的数据块（默认大小是64M），通过文件流的方式往datanode中写数据，写数据时注意是会写冗余数据，冗余数据块的个数默认是3个

最后，只有冗余数据块全部写完，datanode再向客户端发出确认，然后客户端向namenode发出结束消息，并将文件的块信息存储在namenode中

一个问题：如何选datanode用来存储冗余数据块

这是一个权衡的问题：备份的可靠性，网络IO的代价，其实如果都存在不同的机房，这样的可靠性最高，但是网络IO的代价就会很高，因为跨机房的网络IO代价很大，如果都存储在一个节点上，则不需要网络IO，但是数据可靠性就会打折扣

所以hadoop默认的布局策略是：第一个随机在机房中选择一个负载较小的节点，然后在不同的机架上（例如选择了机架A）选择一个节点，再在相同的机架上随机选择一个节点（还是在机架A上）

hdfs: 数据流（二）的更多相关文章

Mysql增量写入Hdfs（二） --Storm+hdfs的流式处理
一. 概述上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到hdfs的过程,由于storm写入hdfs的可定制东西有些多,我们先不从kafka读取,而先 ...
HDFS数据流-剖析文件读取及写入
HDFS数据流-剖析文件读取及写入文件读取 1. 客户端通过调用FileSystem对象的open方法来打开希望读取的文件,对于HDFS来说,这个对象是分布式文件系统的一个实例.2. Distrib ...
浅谈HDFS（二）之NameNode与SecondaryNameNode
NN与2NN工作机制思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的但是,如果存储在 ...
Hadoop之HDFS文件系统(二)
HDFS客户端通过IO流操作HDFS HDFS文件上传 @Test public void putFileToHDFS() throws Exception{ // 1 创建配置信息对象 Confi ...
Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS（二）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs6; import java.io.IOException;import jav ...
脑波设备mindwave数据流二次开发示例
数据流开发神念科技提供了两个文件ThinkGearStreamParse.h和ThinkGearStreamParse.cpp两个文件,主要接口为: 宏定义: /* Data CODE definit ...
Hadoop HDFS (3) JAVA訪问HDFS之二文件分布式读写策略
先把上节未完毕的部分补全,再剖析一下HDFS读写文件的内部原理列举文件 FileSystem(org.apache.hadoop.fs.FileSystem)的listStatus()方法能够列出一 ...
HDFS（二）
HDFS的I/O主要是三个方面: 一致性 HDFS在一致性上面主要是通过校验和(checksum)来实现:从client发起写入的时候会校验一下文件内容,但是发生在pipeline的最后一个节点的时候 ...
Hadoop之HDFS（二）HDFS基本原理
HDFS 基本原理 1,为什么选择 HDFS 存储数据之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点: 1.高容错性数据自动保存多个副本.它通过增加副本的形式,提高容错性. 某一 ...

随机推荐

DelphiXE7中创建WebService(服务端+客户端)
相关资料: http://www.2ccc.com/news/Html/?1507.html http://www.dfwlt.com/forum.php?mod=viewthread&tid ...
HDU 5762 Teacher Bo （暴力）
Teacher Bo 题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5762 Description Teacher BoBo is a geogra ...
linux性能问题（CPU，内存，磁盘I/O，网络）
一. CPU性能评估 1.vmstat [-V] [-n] [depay [count]] -V : 打印出版本信息,可选参数 -n : 在周期性循环输出时,头部信息仅显示一次 delay : 两次输 ...
Android:从程序员到架构师之路Ⅲ_高焕堂
Part-2: 从Android框架代码中学习设计一基础设计模式(Pattern)的代码:以Android为例 1.Template Method模式:IoC(控制反转)机制 2.Observer ...
C#学习笔记（六）：可空类型、匿名方法和迭代器
可空类型为啥要引入可空类型? 在数据库中,字段是可以为null值的,那么在C#中为了方便的操作数据库的值,微软引入了可空类型. 声明可空类型我们可以使用两种方法声明一个可空类型: Nullable ...
编译小结(6)认识Automake
我前面说了很多如何用gcc或 Makefile怎么编译的东东,但在Linux下装过软件的都应当见过,很多源码安装的包是用Automake 来编译的.输入下"./configur ...
Kicad使用经验谈
最近开始学习使用Linux上的开源软件KiCad来绘制电路图和PCB.学习这个还是比较快的,用了两天了,觉得还是蛮方便的. 在这两天的使用以及今后的使用过程中,一定会有很多想要谈的.所以,就写下这篇博 ...
Centos 卸载OpenJdk
[root@localhost ~]# rpm -qa|grep jdkjava-1.6.0-openjdk-devel-1.6.0.0-1.50.1.11.5.el6_3.i686java-1.7. ...
cloudstack 修改显示名称
http://192.168.153.245:8900/client/api?command=updateVirtualMachineid=922d15e1-9be0-44ac-9494-ce5afc ...
ServletContext2
------------ContextServlet.java--------------节选-- protected void doGet(HttpServletRequest request, H ...

hdfs: 数据流（二）

hdfs: 数据流（二）的更多相关文章

随机推荐

热门专题