大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

CLIENT（客户端）：用来发起读写请求，并拆分文件成多个 Block；
NAMENODE：全局的协调和把控所有的请求，提供 Block 存放在 DataNode 上的地址；
DATANODE：负责数据的存储，可以有很多个；

客户端想 NameNode 发出请求（包含 Blocksize 和副本数）；
NameNode 经过计算，反馈给客户端相同副本数的 DataNode，切给出的 DataNode 有优先存储顺序要求；（数据与 DataNode 对应时，一般移动计算，不移动数据）
客户端得到信息后开始写数据，当第一个 DataNode 接受 Block 时，会将该数据传给第二个 DataNode ，第二个 DataNode 接受到数据时，也会将该数据传递给第三个 DataNode；在最后一个 DataNode 接受数据完毕时，则该 Block 全部传输完毕；
DataNode 在接受数据完毕后，每一个 DataNode 都会将完毕信息传递给 NameNode；
NameNode 将所有 DataNode 反馈的信息（所有数据以传输完毕），反馈给客户端；
客户端接受到 NamaNode 反馈的信息后（第一个 Block 传输完毕），开始发送请求传输第二个 Block；
传输完毕后，在关闭请求之前，NameNode 将该文件所有 Block 存放在 DataNode 上的 ID 保存在文件中；

二、HDFS 读数据的流程

客户端：提供文件名、副本数、Block 数量、Block 地址；
NameNode：提供 DataNode 地址及内部位置；

客户端提供提供文件名、副本数、Block 数量、Block 地址给 NameNode；
NameNode 收到请求后，根据请求给出副本及其 Block 所存放的 DataNode，以及Block 在 DataNode 中存放的位置；
客户端根据 NameNode 给的信息，给 DataNode 发出请求，由 DataNode 给出数据所在的具体块的信息；
客户端根据 DataNode 提供的信息，下载数据；

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

数据冗余（文件以 Block 并且多副本的方式存储在集群的节点上）、硬件容错；
处理流式的数据访问；（一次写入，多次读取）
适合存储大文件；（通过扩展 DataNode 来实现存储大文件）
可构建在廉价的机器上；（降低成本）

缺点：

低延迟的数据访问；（一般数据较大，不容易实现在秒级别检索数据）
不适合小文件的存储；（无论文件大小，都有对应的元数据存放在 NameNode 上，如果小文件较多，则对应的元数据较多，对应的元数据所占用的内存信息较大，给NameNode 压力较大）

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

Hadoop -- HDFS 读写数据
一.HDFS读写文件过程 1.读取文件过程 1) 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2) FileSyst ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
我要进大厂之大数据Hadoop HDFS知识点（2）
01 我们一起学大数据老刘继续分享出Hadoop中的HDFS模块的一些高级知识点,也算是对今天复习的HDFS内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点! ...
我要进大厂之大数据Hadoop HDFS知识点（1）
01 我们一起学大数据老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学 ...
HDFS 读写数据流程
一.上传数据二.下载数据三.读写时的节点位置选择 1.网络节点距离(机架感知) 下图中: client 到 DN1 的距离为 4 client 到 NN 的距离为 3 DN1 到 DN2 的距离为 ...
HDFS读写数据流程
HDFS的组成 1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小) 以及每个文件的块列表和块所在的DataNode等.类似于一本书的目录功能. 2 ...
大数据 - hadoop - HDFS+Zookeeper实现高可用
高可用(Hign Availability,HA) 一.概念作用:用于解决负载均衡和故障转移(Failover)问题. 问题描述:一个NameNode挂掉,如何启动另一个NameNode.怎样让两个 ...
HDFS读写数据过程
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
大数据Hadoop——HDFS Shell操作
一.查询目录下的文件 1.查询根目录下的文件 Hadoop fs -ls / 2.查询文件夹下的文件 Hadoop fs -ls /input 二.创建文件夹 hadoop fs -mkdir /文件 ...

随机推荐

【BZOJ3569】DZY Loves Chinese II
[BZOJ3569]DZY Loves Chinese II 题面 bzoj 题目大意: 给你一张$N(1\leq N\leq 10^5)$个点\(M(1\leq M\leq 5\times 10 ...
获取当前页面url指定参数值
function getParam(paramName) { paramValue = "", isFound = !1; if (this.location.search.ind ...
Ubuntu下安装配置SQLSERVER2017
摘要自微软官网: https://docs.microsoft.com/zh-cn/sql/linux/quickstart-install-connect-ubuntu 安装步骤: 1. 导入公共秘 ...
IDEA Gradle配置与使用
1.安装Gradle,并添加环境变量. https://www.cnblogs.com/NyanKoSenSei/p/11458953.html 2.在IDEA中设置Gradle: 3.选中项目中的. ...
Linux系统查看是32位还是64位
uname -a 如果是64位机器,会输出x86_64
【Gamma】Scrum Meeting 10
目录写在前面任务进度表燃尽图照片写在前面例会时间:6.8 22:30-23.00 例会地点:微信群语音通话代码进度记录github在这里任务进度表注:点击链接跳转至相应的issue ...
html页面添加左侧滑动菜单与内容部分的滚动条
html + css + jquery 展示地址:https://migloo.gitee.io/front 或 https://www.igloo.xin/front 思路: 1.通过jquery ...
解决github打不开
今天重庆电信的“临时工”把github废了. 主要是github.githubassets.com和customer-stories-feed.github.com访问不到通过修改host的方式上g ...
sklearn保存模型的两种方式
sklearn 中模型保存的两种方法一. sklearn中提供了高效的模型持久化模块joblib,将模型保存至硬盘. from sklearn.externals import joblib # ...
Maven使用tomcat7-maven-plugin
原文地址:https://www.cnblogs.com/mozisss/p/10233366.html 功能: (使用maven中的tomcat插件,就可以将tomcat集成到项目中,效果就是:在不 ...

大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

二、HDFS 读数据的流程

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

缺点：

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

随机推荐

热门专题