hdfs: 数据流（二）

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。

一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。

1. 读文件

从上图可以看出，客户端读取数据时，

首先从namenode获取如下信息（这些元数据信息是在内存中，所以查询速度很快，这个过程对客户端是透明的）：

a. 该文件有哪些数据块

b.这些数据块都放在哪里或者说是取哪个节点上的什么数据块

然后，客户端直接从datanode中以文件流的方式读取数据

最后，关闭这个文件流

一个问题：因为每个数据块都有三个备份，那么取哪个比较好？

选取读取代价最小的节点，首先会在同一个节点中选取（如果客户端也是datanode时），其次在同一个机架上的datanode中选取，最后再同一个机房中选取

hadoop会根据网络拓扑给每一个冗余数据块打分，原则就是考虑是否在同一个节点上，是否在相同的机架上，是否在同一个机房（目前hadoop不能跨机房部署）

2. 写文件

首先，客户端通知namenode：我要写文件了，确认客户端权限和没有相同的文件后，namenode创建一个新的文件记录

然后，将文件分成一个一个的数据块（默认大小是64M），通过文件流的方式往datanode中写数据，写数据时注意是会写冗余数据，冗余数据块的个数默认是3个

最后，只有冗余数据块全部写完，datanode再向客户端发出确认，然后客户端向namenode发出结束消息，并将文件的块信息存储在namenode中

一个问题：如何选datanode用来存储冗余数据块

这是一个权衡的问题：备份的可靠性，网络IO的代价，其实如果都存在不同的机房，这样的可靠性最高，但是网络IO的代价就会很高，因为跨机房的网络IO代价很大，如果都存储在一个节点上，则不需要网络IO，但是数据可靠性就会打折扣

所以hadoop默认的布局策略是：第一个随机在机房中选择一个负载较小的节点，然后在不同的机架上（例如选择了机架A）选择一个节点，再在相同的机架上随机选择一个节点（还是在机架A上）

hdfs: 数据流（二）的更多相关文章

Mysql增量写入Hdfs（二） --Storm+hdfs的流式处理
一. 概述上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到hdfs的过程,由于storm写入hdfs的可定制东西有些多,我们先不从kafka读取,而先 ...
HDFS数据流-剖析文件读取及写入
HDFS数据流-剖析文件读取及写入文件读取 1. 客户端通过调用FileSystem对象的open方法来打开希望读取的文件,对于HDFS来说,这个对象是分布式文件系统的一个实例.2. Distrib ...
浅谈HDFS（二）之NameNode与SecondaryNameNode
NN与2NN工作机制思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的但是,如果存储在 ...
Hadoop之HDFS文件系统(二)
HDFS客户端通过IO流操作HDFS HDFS文件上传 @Test public void putFileToHDFS() throws Exception{ // 1 创建配置信息对象 Confi ...
Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS（二）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs6; import java.io.IOException;import jav ...
脑波设备mindwave数据流二次开发示例
数据流开发神念科技提供了两个文件ThinkGearStreamParse.h和ThinkGearStreamParse.cpp两个文件,主要接口为: 宏定义: /* Data CODE definit ...
Hadoop HDFS (3) JAVA訪问HDFS之二文件分布式读写策略
先把上节未完毕的部分补全,再剖析一下HDFS读写文件的内部原理列举文件 FileSystem(org.apache.hadoop.fs.FileSystem)的listStatus()方法能够列出一 ...
HDFS（二）
HDFS的I/O主要是三个方面: 一致性 HDFS在一致性上面主要是通过校验和(checksum)来实现:从client发起写入的时候会校验一下文件内容,但是发生在pipeline的最后一个节点的时候 ...
Hadoop之HDFS（二）HDFS基本原理
HDFS 基本原理 1,为什么选择 HDFS 存储数据之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点: 1.高容错性数据自动保存多个副本.它通过增加副本的形式,提高容错性. 某一 ...

随机推荐

欧拉图 CCF2016第六次送货
// 欧拉图 CCF2016第六次送货 // 思路: // CCF数据很水....这道题有问题 // 先判连通,再dfs边. // 应为输出要满足字典序最小,用vector存图,sort一遍,用st ...
Android - LayoutInflater
在实际开发中LayoutInflater这个类还是非常有用的,它的作用类似于findViewById().不同点是LayoutInflater是用来找res/layout/下的xml布局文件,并且实例 ...
【转】Maven实战（四）---多模块项目---JBOSS部署问题
原文出自于:http://blog.csdn.net/liutengteng130/article/details/41622681 感谢! 这几天在搭框架中仅仅是JBOSS就遇到了很多问题 ...
Spark生态之Spark MLbase/MLlib
hdu 3038 How Many Answers Are Wrong
http://acm.hdu.edu.cn/showproblem.php?pid=3038 How Many Answers Are Wrong Time Limit: 2000/1000 MS ( ...
iOS开发60分钟入门
原文:https://github.com/qinjx/30min_guides/blob/master/ios.md 本文面向已有其它语言(如Java,C,PHP,Javascript)编程经验的i ...
OOP 6大基本原则
1.开闭原则: 对扩展开发.对修改关闭. 2.里氏替换原则:子类替换父类(可以用父类对象的任何地方都可以用子类对象代替) 3.依赖倒置原则:程序要依赖于抽象接口,不要依赖于具体实现.简单的说就是要求对 ...
MVC3 使用NPOI导出excel
NPOI的官方教程:http://tonyqus.sinaapp.com/tutorial 此次项目中使用的是NPOI的1.25版本,项目是MVC3,在这里只贴上controller部分的代码: 1 ...
union all 简单用法
select Y.ID,sum(cast(Y.m as int)) as hefrom(select top 10 a.ID,a.AlarmSource as m from dbo.AlarmInfo ...
Centos 6.5安装python3.5.1
查看python的版本 #python -V Python 2.6.6 1.下载Python-3.5.1 #wget https://www.python.org/ftp/python/3.5.1/ ...

hdfs: 数据流（二）

hdfs: 数据流（二）的更多相关文章

随机推荐

热门专题