大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

CLIENT（客户端）：用来发起读写请求，并拆分文件成多个 Block；
NAMENODE：全局的协调和把控所有的请求，提供 Block 存放在 DataNode 上的地址；
DATANODE：负责数据的存储，可以有很多个；

客户端想 NameNode 发出请求（包含 Blocksize 和副本数）；
NameNode 经过计算，反馈给客户端相同副本数的 DataNode，切给出的 DataNode 有优先存储顺序要求；（数据与 DataNode 对应时，一般移动计算，不移动数据）
客户端得到信息后开始写数据，当第一个 DataNode 接受 Block 时，会将该数据传给第二个 DataNode ，第二个 DataNode 接受到数据时，也会将该数据传递给第三个 DataNode；在最后一个 DataNode 接受数据完毕时，则该 Block 全部传输完毕；
DataNode 在接受数据完毕后，每一个 DataNode 都会将完毕信息传递给 NameNode；
NameNode 将所有 DataNode 反馈的信息（所有数据以传输完毕），反馈给客户端；
客户端接受到 NamaNode 反馈的信息后（第一个 Block 传输完毕），开始发送请求传输第二个 Block；
传输完毕后，在关闭请求之前，NameNode 将该文件所有 Block 存放在 DataNode 上的 ID 保存在文件中；

二、HDFS 读数据的流程

客户端：提供文件名、副本数、Block 数量、Block 地址；
NameNode：提供 DataNode 地址及内部位置；

客户端提供提供文件名、副本数、Block 数量、Block 地址给 NameNode；
NameNode 收到请求后，根据请求给出副本及其 Block 所存放的 DataNode，以及Block 在 DataNode 中存放的位置；
客户端根据 NameNode 给的信息，给 DataNode 发出请求，由 DataNode 给出数据所在的具体块的信息；
客户端根据 DataNode 提供的信息，下载数据；

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

数据冗余（文件以 Block 并且多副本的方式存储在集群的节点上）、硬件容错；
处理流式的数据访问；（一次写入，多次读取）
适合存储大文件；（通过扩展 DataNode 来实现存储大文件）
可构建在廉价的机器上；（降低成本）

缺点：

低延迟的数据访问；（一般数据较大，不容易实现在秒级别检索数据）
不适合小文件的存储；（无论文件大小，都有对应的元数据存放在 NameNode 上，如果小文件较多，则对应的元数据较多，对应的元数据所占用的内存信息较大，给NameNode 压力较大）

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

Hadoop -- HDFS 读写数据
一.HDFS读写文件过程 1.读取文件过程 1) 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2) FileSyst ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
我要进大厂之大数据Hadoop HDFS知识点（2）
01 我们一起学大数据老刘继续分享出Hadoop中的HDFS模块的一些高级知识点,也算是对今天复习的HDFS内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点! ...
我要进大厂之大数据Hadoop HDFS知识点（1）
01 我们一起学大数据老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学 ...
HDFS 读写数据流程
一.上传数据二.下载数据三.读写时的节点位置选择 1.网络节点距离(机架感知) 下图中: client 到 DN1 的距离为 4 client 到 NN 的距离为 3 DN1 到 DN2 的距离为 ...
HDFS读写数据流程
HDFS的组成 1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小) 以及每个文件的块列表和块所在的DataNode等.类似于一本书的目录功能. 2 ...
大数据 - hadoop - HDFS+Zookeeper实现高可用
高可用(Hign Availability,HA) 一.概念作用:用于解决负载均衡和故障转移(Failover)问题. 问题描述:一个NameNode挂掉,如何启动另一个NameNode.怎样让两个 ...
HDFS读写数据过程
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
大数据Hadoop——HDFS Shell操作
一.查询目录下的文件 1.查询根目录下的文件 Hadoop fs -ls / 2.查询文件夹下的文件 Hadoop fs -ls /input 二.创建文件夹 hadoop fs -mkdir /文件 ...

随机推荐

一本通 1615：【例 1】序列的第 k 个数
传送门我在这里! 思路输入一个序列的前三个数并求出这个序列的第K项,这个数列不是等比序列就是等差数列,等差数列比较好判断,如果序列中\(a_{i+2}-a_{i+1}=a_{i+1}-a_{i}\ ...
11-散列4 Hashing - Hard Version (30 分)
Given a hash table of size N, we can define a hash function H(x)=x%N. Suppose that the linear probin ...
linux脚本中有source相关命令时的注意事项
写这个问题起因是因为一个同学去的java一键脚本环境变量设置问题, [root@localhost u01]# more 1.sh #!/bin/bash grep -q "export J ...
Sql Server怎样设置sa用户登录
首先,我门打开数据库管理工具,用windows方式登录,windows只能本机登录,这样远程的客户端就登录不了,我们目前就是为了开启sa登录,使远程客户端也能访问数据库,看下图,windows方式登录 ...
Redis读写分离技术解析
背景云数据库Redis版不管主从版还是集群规格,replica作为备库不对外提供服务,只有在发生HA的时候,replica提升为master后才承担读写流量.这种架构读写请求都在master上完成, ...
libevent笔记3：evbuffer
evbuffer 之前提到bufferevent结构体提供两个缓存区用来为读写提供缓存,并自动进行IO操作.这两个缓存区是使用Libevent中的evbuffer实现的,同样,Libevent中也提供 ...
centos7 df 命令卡死
登录服务器想查看磁盘使用情况,使用了df,但卡住半天没有响应. 运行strace df -h,发现最后卡在了 stat("/proc/sys/fs/binfmt_misc", 无法 ...
记录ssis的两个异常解决办法
1.Foreach文件枚举提示变量为空的解决办法:把foreach属性窗口中的DelayValidation设置为True就可以了 2.csv导入数据库提示:无法在 unicode 和非 unicod ...
SQLite中字段顺序和PAGE_SIZE对性能的影响
1．背景 SQLite数据库中有1张表,该表含若干个字段,其中有1个字段为BLOB类型,且BLOB字段不是最后1个字段.表结构类似如下(col3为BLOB字段): T (col1 INTEGER,co ...
【题解】Luogu P2447 [SDOI2010]外星千足虫
原题传送门根据题意,题目给的每个操作就相当于异或上选中的那几只虫子的足数(mod 2)等于0/1 这是一个异或方程组,珂以用高斯消元解出每个虫子的足数(mod 2).所需最小次数或判断有多解但是看 ...

大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

二、HDFS 读数据的流程

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

缺点：

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

随机推荐

热门专题