HDFS笔记（一）

1. HDFS 是什么？

Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）

2. HDFS 架构

首先HDFS是一个分布式文件系统，就是说在一个集群上做了一个文件系统。一般的集群都是主从结构。namenode是主，datenode是从。

我们来看一下这几个概念

Client：就是客户端。

1、文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

2、与 NameNode 交互，获取文件的位置信息。

3、与 DataNode 交互，读取或者写入数据。

4、Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

5、Client 可以通过一些命令来访问 HDFS。

NameNode：就是 master，它是一个主管、管理者。

1.管理者文件系统命名空间

--维护着文件树及树中的所有文件和目录

2.存储元数据

--namenodde 保存元信息的种类有

文件名目录名及它们之间的层级关系

文件目录和所有者及其权限

每个文件块和名及文件有哪些块组成

注：元数据保存在内存中

namenode元信息并不包含每个块的位置信息

3.保存文件，block，datanode 之间的映射关系

4.配置副本策略

5.处理客户端读写请求

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

1.负责存储实际的数据块，负责为系统客户端提供数据块的读写服务

2.根据NameNode 的指示进行创建、删除和复制等操作

3.心跳机制，定期报告文件块列表信息

4.datanode之间进行通信，块的副本处理

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

1、辅助 NameNode，分担其工作量。

2、定期合并 fsimage和fsedits，并推送给NameNode。

3、在紧急情况下，可辅助恢复 NameNode。

3. HDFS上传流程

过程解析：

这里描述的是一个256M的文件上传过程

① 由客户端向 NameNode节点节点发出请求

② NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则

③ 客户端首先根据返回的信息先将文件分块（Hadoop2.X版本每一个block为 128M 而之前的版本为 64M）

④ 然后通过那么Node返回的DataNode信息直接发送给DataNode 并且是流式写入同时会复制到其他两台机器

⑤ dataNode 向 Client通信表示已经传完数据块同时向NameNode报告

⑥ 依照上面（④ 到 ⑤）的原理将所有的数据块都上传结束向 NameNode 报告表明已经传完所有的数据块

这样整个HDFS上传流程就走完了

HDFS笔记（一）的更多相关文章

HDFS笔记——技术点汇总
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...
hdfs笔记
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文 ...
【Hadoop】HDFS笔记（三）：HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令键入命令"./bin/hadoop fs"将输 ...
【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...
【Hadoop】HDFS笔记（一）：Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...
HDFS笔记（二）
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...
学习笔记—MapReduce
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

python基础之logging
import logging def logger(): logger = logging.getLogger('logger')#括号里面默认是root logger.setLevel('DEBUG ...
nginx安装配置: configure命令
configure命令用来配置nginx编译环境. 该命令定义了系统各方面功能,包括允许nginx使用的连接处理方式. 其执行结果是生成一个Makefile文件. configure命令支持如下参数: ...
vim: 基本知识；
1. 函数: function! funcName(para.) content; endfunction 如果添加!,将覆盖已存在的重名函数: 注: 该博文为扩展型: 2.调用外部命令: exe ...
beego 实现API自动化文档
安装beego和bee工具 1.beego安装 go get -u github.com/astaxie/beego 2.安装bee工具 go get -u github.com/beego/bee ...
Nginx安装及配置详解包括windows环境
nginx概述 nginx是一款自由的.开源的.高性能的HTTP服务器和反向代理服务器:同时也是一个IMAP.POP3.SMTP代理服务器:nginx可以作为一个HTTP服务器进行网站的发布处理,另外 ...
Hudson持续集成管理平台搭建
IP: 10.0.70.106 8G 内存 (Hudson 多个工程在同时构建的情况下比较耗内存) 环境: CentOS 6.5 . JDK7 注:Hudson 只是一个持续集成 ...
在Java中如何高效的判断数组中是否包含某个元素
原文出处: hollischuang(@Hollis_Chuang) 如何检查一个数组(无序)是否包含一个特定的值?这是一个在Java中经常用到的并且非常有用的操作.同时,这个问题在Stack Ove ...
PHP7 学习笔记（十四）Reids 键空间通知配合TP5 实现分布式延时任务
测试环境:windows 10 + phpStudy 配置redis配置文件 redis.windows.conf notify-keyspace-events "Ex" 重启re ...
Spark源码剖析 - SparkContext的初始化(十)_Spark环境更新
12. Spark环境更新在SparkContext的初始化过程中,可能对其环境造成影响,所以需要更新环境,代码如下: SparkContext初始化过程中,如果设置了spark.jars属性,sp ...
python web 开发
第一个简单的 WSGI demo from wsgiref.simple_server import make_server def application(environ, start_respo ...

HDFS笔记（一）

HDFS笔记（一）的更多相关文章

随机推荐

热门专题