一、上传数据

二、下载数据

三、读写时的节点位置选择

1.网络节点距离（机架感知）

下图中：

client 到 DN1 的距离为 4

client 到 NN 的距离为 3

DN1 到 DN2 的距离为 2

2.Block 的副本放置策略

NameNode 通过 Hadoop Rack Awareness 确定每个 DataNode 所属的机架 ID

简单但非最优的策略

将副本放在单独的机架上

这可以防止在整个机架出现故障时丢失数据，并允许在读取数据时使用来自多个机架的带宽。

此策略在群集中均匀分布副本，平衡组件故障的负载。

但是此策略会增加写入消耗，因为写入时会将块传输到多个机架。

常见情况策略（HDFS 采取的策略）

当复制因子为 3 时，HDFS 的放置策略是：

若客户端位于 datanode 上，则将一个副本放在本地计算机上，否则放在随机 datanode 上

在另一个（远程）机架上的节点上放置另一个副本，最后一个在同一个远程机架中的另一个节点上。

机架故障的可能性远小于节点故障的可能性。

此策略可以减少机架间写入流量，从而提高写入性能，而不会影响数据可靠性和可用性（读取性能）。

这样减少了读取数据时使用的聚合网络带宽，因为块只放在两个唯一的机架，而不是三个。

如果复制因子大于 3，则随机确定第 4 个及后续副本的放置，同时保持每个机架的副本数量低于上限（基本上是（副本 - 1）/机架+ 2）。

由于 NameNode 不允许 DataNode 具有同一块的多个副本，因此创建的最大副本数是此时DataNode的总数。

原文（Replica Placement: The First Baby Steps 章节）： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

3.下载时副本的选择

为了最大限度地减少全局带宽消耗和读取延迟，HDFS 会选择最接客户端的节点中的副本来响应读取请求。

如果客户端与 DataNode 节点在同一机架上，且存在所需的副本，则该副本会首读用来响应取请求。

如果 HDFS 群集跨越多个数据中心，则驻留在本地数据中心的副本优先于任何远程副本。

原文（Replica Selection 章节）： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

HDFS 读写数据流程的更多相关文章

大数据：Hadoop（HDFS 读写数据流程及优缺点）
一.HDFS 写数据流程写的过程: CLIENT(客户端):用来发起读写请求,并拆分文件成多个 Block: NAMENODE:全局的协调和把控所有的请求,提供 Block 存放在 DataNode ...
HDFS读写数据流程
HDFS的组成 1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小) 以及每个文件的块列表和块所在的DataNode等.类似于一本书的目录功能. 2 ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
Hadoop(8)-HDFS的读写数据流程以及机架感知
1. HDFS的写数据流程 1.客户端通过fs模块向NameNode申请文件上传,NameNode检查请求是否合法,如用户权限,目标文件是否已存在,父目录是否存在等等 2.NameNode返回是否可以 ...
Hadoop -- HDFS 读写数据
一.HDFS读写文件过程 1.读取文件过程 1) 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2) FileSyst ...
HDFS读写数据过程
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
Hdfs读写数据出错
1.Hdfs读数据出错:若在读数据的过程中,客户端和DataNode的通信出现错误,则会尝试连接下一个包含次文件块的DataNode.同时记录失败的DataNode,此后不再被连接. 2.Hdfs在 ...
HDFS读写文件流程
读取: 写入:https://www.imooc.com/article/70527
HDFS写数据和读数据流程
HDFS数据存储 HDFS client上传数据到HDFS时,首先,在本地缓存数据,当数据达到一个block大小时.请求NameNode分配一个block. NameNode会把block所在的Dat ...

随机推荐

python 机械学习之sklearn的数据正规化
from sklearn import preprocessing #导入sklearn的处理函数用于处理一些大值数据 x_train, x_test, y_train, y_test = tr ...
Codeforces Round #426 Div. 1
A:考虑每个质因子,显然要求次数之和是3的倍数,且次数之差的两倍不小于较小的次数.对于第一个要求,乘起来看开三次方是否是整数即可.第二个取gcd,两个数分别除掉gcd,之后看两个数的剩余部分是否都能被 ...
进程间的通讯————IPC
""" IPC 指的是进程间通讯之所以开启子进程肯定需要它帮我们完成任务很多情况下需要将数据返回给父进程然而进程内存是物理隔离的解决方案: 1.将共享数据放 ...
接口压测初识java GC
1.先用Spring Boot 搭建 web 服务,构建api 服务 @RequestMapping("/index") @ResponseBody public String i ...
win10系统同时安装python2.7和python3.6
我是先在本机上安装的python3.6.5,因为要学习一个框架,但是这个框架只支持python2,所以我又安装了python2.7.15,并且配置到系统环境变量环境变量配置了python3.6.5的 ...
自学Aruba集锦
自学Aruba集锦 01 自学Aruba之功率单位和相对单位 02 自学Aruba之无线频段---ISM频段及UNII频段 03 自学Aruba之2.4GHz及5GHz无线信道 04 自学Aruba之 ...
【CF1097E】Egor and an RPG game（动态规划，贪心）
[CF1097E]Egor and an RPG game(动态规划,贪心) 题面洛谷 CodeForces 给定一个长度为$n$的排列$a$,定义$f(n)$为将一个任意一个长度为\( ...
【BZOJ5416】【NOI2018】冒泡排序（动态规划）
[BZOJ5416][NOI2018]冒泡排序(动态规划) 题面 BZOJ 洛谷 UOJ 题解考场推出了就是两个上升子序列,并且最长下降子序列长度不超过$2$...然后大力暴力状压$dp$混 ...
EtherType ：以太网类型字段及值
Ethernet II即DIX 2.0:Xerox与DEC.Intel在1982年制定的以太网标准帧格式.Cisco名称为:ARPA Ethernet II类型以太网帧的最小长度为64字节(6+6+2 ...
css文本设置
常用的应用文本的css样式: color 设置文字的颜色,如: color:red; font-size 设置文字的大小,如:font-size:12px; font-family 设置文字的字体,如 ...

HDFS 读写数据流程

一、上传数据

二、下载数据

三、读写时的节点位置选择

HDFS 读写数据流程的更多相关文章

随机推荐

热门专题