HDFS笔记（一）

1. HDFS 是什么？

Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）

2. HDFS 架构

首先HDFS是一个分布式文件系统，就是说在一个集群上做了一个文件系统。一般的集群都是主从结构。namenode是主，datenode是从。

我们来看一下这几个概念

Client：就是客户端。

1、文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

2、与 NameNode 交互，获取文件的位置信息。

3、与 DataNode 交互，读取或者写入数据。

4、Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

5、Client 可以通过一些命令来访问 HDFS。

NameNode：就是 master，它是一个主管、管理者。

1.管理者文件系统命名空间

--维护着文件树及树中的所有文件和目录

2.存储元数据

--namenodde 保存元信息的种类有

文件名目录名及它们之间的层级关系

文件目录和所有者及其权限

每个文件块和名及文件有哪些块组成

注：元数据保存在内存中

namenode元信息并不包含每个块的位置信息

3.保存文件，block，datanode 之间的映射关系

4.配置副本策略

5.处理客户端读写请求

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

1.负责存储实际的数据块，负责为系统客户端提供数据块的读写服务

2.根据NameNode 的指示进行创建、删除和复制等操作

3.心跳机制，定期报告文件块列表信息

4.datanode之间进行通信，块的副本处理

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

1、辅助 NameNode，分担其工作量。

2、定期合并 fsimage和fsedits，并推送给NameNode。

3、在紧急情况下，可辅助恢复 NameNode。

3. HDFS上传流程

过程解析：

这里描述的是一个256M的文件上传过程

① 由客户端向 NameNode节点节点发出请求

② NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则

③ 客户端首先根据返回的信息先将文件分块（Hadoop2.X版本每一个block为 128M 而之前的版本为 64M）

④ 然后通过那么Node返回的DataNode信息直接发送给DataNode 并且是流式写入同时会复制到其他两台机器

⑤ dataNode 向 Client通信表示已经传完数据块同时向NameNode报告

⑥ 依照上面（④ 到 ⑤）的原理将所有的数据块都上传结束向 NameNode 报告表明已经传完所有的数据块

这样整个HDFS上传流程就走完了

HDFS笔记（一）的更多相关文章

HDFS笔记——技术点汇总
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...
hdfs笔记
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文 ...
【Hadoop】HDFS笔记（三）：HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令键入命令"./bin/hadoop fs"将输 ...
【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...
【Hadoop】HDFS笔记（一）：Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...
HDFS笔记（二）
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...
学习笔记—MapReduce
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

第三十二篇-NavigationView导航抽屉的使用
效果图: 导航抽屉所用到的布局是DrawerLayout,可以在里面添加一个线性布局和TextView组件,TextView组件的文本信息就是"主页面".然后和线性布局平行添加一个 ...
C# winform TreeView中关于checkbox选择的完美类[转]
http://www.cnblogs.com/kingangWang/archive/2011/08/15/2139119.html public static class TreeViewCheck ...
Spring3 （事务管理）
简介: 1.事务管理.2.整合Junit.3.整和Web 1 事务管理 1.1 回顾事务 l 事务:一组业务操作ABCD,要么全部成功,要么全部不成功. l 特性:ACID 原子性 ...
Windows 查看端口占用情况
今天打算运行一下当年的毕业设计,结果启动ActiveMQ的时候,发现报错原来是端口占用了.在Windows上怎样看呢? Ctrl+Alt+Del 调出任务管理器再找到资源监视器原来是依赖于Erl ...
Comet——反向Ajax （基础知识）
Comet:服务器推送,与ajax页面向服务器请求数据相反.几乎可以实时将数据推送到客户端. 但本质一样:浏览器向服务器发起请求,服务器响应请求 Comet实现方式:长轮询.HTTP流 1.长轮询—— ...
查看android源码，windows环境下载源码
查看源码参考: http://blog.csdn.net/janronehoo/article/details/8560304 步骤: 添加chrome插件 Android SDK Search 进 ...
POJ 2728 Desert King (01分数规划）
Desert King Time Limit: 3000MS Memory Limit: 65536K Total Submissions:29775 Accepted: 8192 Descr ...
logistics回归简单应用——梯度下降，梯度上升，牛顿算法（一）
警告:本文为小白入门学习笔记由于之前写过详细的过程,所以接下来就简单描述,主要写实现中遇到的问题. 数据集是关于80人两门成绩来区分能否入学: 数据集: http://openclassroom.s ...
（注意输入格式）bistuoj（旧）1237 成绩统计
成绩统计 Time Limit(Common/Java):1000MS/3000MS Memory Limit:65536KByteTotal Submit:88 ...
【强大知名的CAD绘图工具】AutoCAD 2019 for Mac
以上图片来源于互联网分享,如涉及版权问题请联系作者删除. 文章素材来源:风云社区(www.scoee.com) 下载地址:风云社区(www.scoee.com) [简介] AutoCAD 2019 ...

HDFS笔记（一）

HDFS笔记（一）的更多相关文章

随机推荐

热门专题