HDFS的运行原理

简介

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。

HDFS特点：

1、保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认备份3份。

2、可以支持运行在廉价的机器上。

3、适合大数据的处理。HDFS将文件分成block（块），默认一个block为64M，将分块后的数据以键值对的方式存储到HDFS上，并将键值对映射到内存中。

如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

NameNode：是Master节点，是管理者。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间。

block保存在那些DataNode节点上（这部分数据并非保存在NameNode磁盘上，它是在DataNode启动时上报给NameNode的，NameNode接收到之后将这些信息保存在内存中）。

Block的位置信息不回保存在fsimage中。

Edits文件记录了客户端操作fsimage的日志，对文件的增删改等。

SecondaryNameNode：分担namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。

合并fsimage和fsedits文件，然后发送并替换NameNode的fsimage文件，同时自己留下一个副本，

这个副本可以在NameNode宕机或者坏死后进行部分文件恢复。

1、可以通过配置fs.checkpoint.period修改合并间隔时间，默认1小时。

2、也可以配置edits日志文件的大小，fs.checkpoint.size规定edits文件的最大值，来让SecondaryNameNode来知道什么时候该进行合并操作，默认大小是64M。

合并过程如下：

DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。

热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。

冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。

fsimage:元数据镜像文件（文件系统的目录树。）

edits：元数据的操作日志（针对文件系统做的修改操作记录）

namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。

HDFS优缺点：

®优点:

1、高容错性

数据自动保存多个副本

副本丢失后，自动恢复

2、适合批处理

移动的计算和操作

数据位置暴露给计算框架

3、适合大数据处理

GB、TB、PB甚至更大

百万规模以上的文件数量

10K+节点

4、可以构架在廉价的机器上

通过副本提高可靠性

提供了容错和恢复机制

®缺点：

1、低延迟数据访问

2、小文件存取耗资源（占用NameNode内存空间）

3、并发写入（一个文件只能有一个写入者）、文件不能随机修改（只支持append）

HDFS的运行原理的更多相关文章

【Hadoop】HDFS的运行原理
博文已转移,请借一步说话http://www.weixuehao.com/archives/596 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文 ...
HDFS的运行原理（转）
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Go ...
HDFS的运行原理（转载）
原文地址:http://www.cnblogs.com/laov/p/3434917.html 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系 ...
Hadoop（六）之HDFS的存储原理（运行原理）
前言其实说到HDFS的存储原理,无非就是读操作和写操作,那接下来我们详细的看一下HDFS是怎么实现读写操作的! 一.HDFS读取过程 1)客户端通过调用FileSystem对象的open()来读取希 ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
【转载】Spark系列之运行原理和架构
参考 http://www.cnblogs.com/shishanyuan/p/4721326.html 1. Spark运行架构 1.1 术语定义 lApplication:Spark Applic ...
[Spark內核] 第41课：Checkpoint彻底解密：Checkpoint的运行原理和源码实现彻底详解
本课主题 Checkpoint 运行原理图 Checkpoint 源码解析引言 Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题: Spark 在生产环境下经常会面临 T ...
Spark核心技术原理透视一（Spark运行原理）
在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位. Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势.无论是性能,还是方案的统一 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...

随机推荐

JAVA内存管理
java与c++之间有一堵由内存动态分配和垃圾收集技术所围成的高墙.墙外面的人想进去,墙里面的人想出去. 1.java内存分布程序计数器栈(局部变量.操作数.动态链接.方法出口) 每一个方法从调用 ...
web学习之开发环境的搭建
开发工具 myeclipse2014: tomcat7.0 jdk7.0 1:新建一个web projcat 2:找到web root目录下的index.jsp 这是项目首页 3:访问web项目 ht ...
textbox只能输入数字或中文的常用正则表达式和验证方法
验证数字的正则表达式集验证数字:^[0-9]*$ 验证n位的数字:^\d{n}$ 验证至少n位数字:^\d{n,}$ 验证m-n位的数字:^\d{m,n}$ 验证零和非零开头的数字:^(0|[1-9 ...
C++ 之 auto_ptr and shared_ptr
1.auto_ptr 这个所谓的只能指针有点鸡肋! 没有引用计数,而且还有一个所有权转移的情况! 当所有权转移后,以前的auto_ptr将会成为null 2.shared_ptr 增加了引用计数,没 ...
js键盘事件
弱鸡今天在写键盘事件,发生一个小bug,排查了1小时(">皿<)可恶的浏览器竟然还不报错!!原因是将e.ctrlKey写成了e.ctrLKey,o(ﾟДﾟ)っ想想都要生气< ...
iOS开发一个用户登录注册模块需要解决的坑
最近和另外一位同事负责公司登录和用户中心模块的开发工作,开发周期计划两周,减去和产品和接口的协调时间,再减去由于原型图和接口的问题,导致强迫症纠结症状高发,情绪不稳定耗费的时间,能在两周基本完成也算是 ...
GoldenGate针对OEM 13.1的版本发布
OGG 针对OEM(Oracle Enterprise Manager) 13.1的插件已经可以从这里下载: http://www.oracle.com/technetwork/middleware/ ...
【python】操作excel——xlrd xlwt xlutils
from xlutils.copy import copy import xlrd # import xlutils #打开已存在的excel rb=xlrd.open_workbook('D:\\1 ...
实验二简易版C语言文法
<程序>::=begin<语句串>end <语句串>::=<语句>{;<语句>} <语句>::=<赋值语句> < ...
活用shape、selector和layer-list来打造自己想要的背景效果
活用shape.selector和layer-list来打造自己想要的背景效果 2016-04-27 13:52 281人阅读评论(0) 收藏举报版权声明:本文为博主原创文章,未经博主允许不得转 ...

HDFS的运行原理

HDFS的运行原理的更多相关文章

随机推荐

热门专题