HDFS 简介

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。 HDFS是高容错性的，可以部署在低成本的硬件之上，HDFS提供高吞吐量地对应用程序数据访问，它适合大数据集的应用程序。它具有以下几个特点：

1）适合存储非常大的文件

2）适合流式数据读取，即适合“只写一次，读多次”的数据处理模式

3）适合部署在廉价的机器上

但HDFS不适合以下场景（任何东西都要分两面看，只有适合自己业务的技术才是真正的好技术）：

1）不适合存储大量的小文件，因为受Namenode内存大小限制

2）不适合实时数据读取，高吞吐量和实时性是相悖的，HDFS选择前者

3）不适合需要经常修改数据的场景

HDFS 架构

HDFS的架构如上图所示，总体上采用了Master/Slave的架构，主要有以下4个部分组成：

1、Client

2、NameNode

整个HDFS集群只有一个NameNode，它存储整个集群文件分别的元数据信息。这些信息以fsimage和editlog两个文件存储在本地磁盘，Client通过这些元数据信息可以找到相应的文件。此外，NameNode还负责监控DataNode的健康情况，一旦发现DataNode异常，就将其踢出，并拷贝其上数据至其它DataNode。

3、Secondary NameNode

Secondary NameNode负责定期合并NameNode的fsimage和editlog。这里特别注意，它不是NameNode的热备，所以NameNode依然是Single Point of Failure。它存在的主要目的是为了分担一部分NameNode的工作（特别是消耗内存的工作，因为内存资源对NameNode来说非常珍贵）。在紧急情况下，可辅助恢复NameNode。

4、DataNode

DataNode负责数据的实际存储，是文件存储的基本单元。当一个文件上传至HDFS集群时，它以Block为基本单位分布在各个DataNode中，同时，为了保证数据的可靠性，每个Block会同时写入多个DataNode中（默认为3）；周期性的将所有存在的Block信息发送给NameNode。

HDFS 架构原则

1）元数据与数据分离

2）主/从架构

3）一次写入多次读取

4）移动计算比移动数据更划算

1、元数据与数据分离

参考文章：

http://www.open-open.com/lib/view/open1370958803132.html

http://blog.jobbole.com/34244/

Hadoop HDFS 架构设计的更多相关文章

2本Hadoop技术内幕电子书百度网盘下载：深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成著机械工业出版社2013年5月出 ...
Hadoop YARN架构设计要点
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框 ...
HDFS架构设计
原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 介绍 HDFS是个分布式 ...
2、Hdfs架构设计与原理分析
文章目录 1.Hadoop架构 2.HDFS体系架构 2.1NameNode 2.1.1元数据信息 2.1.2NameNode文件操作 2.1.3NameNode副本 2.1.4NameNode心跳机 ...
HADOOP HDFS的设计
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 ...
后端程序员之路 47、Hadoop hdfs
Hadoop的核心是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase.Hive等,这些都是基于HDFS和MapReduce发 ...
大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
一.HDFS 的设计思路 1)思路切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处 ...
大数据技术hadoop入门理论系列之二—HDFS架构简介
HDFS简单介绍 HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统. 与其他分布式文件系统显著不同的特点是: HDFS是一个高容错 ...
基于Hadoop的大数据平台实施记——整体架构设计[转]
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

随机推荐

Mysql命令行中文乱码的解决方法
环境:Windows 8 64位,Mysql 5.0.96 for Win64 (x86) 数据库本身安装时默认已经是使用utf8编码的了,但在命令行中执行查询时,查询到的中文依然乱码,解决方法如下 ...
codeforces 361 B - Mike and Shortcuts
原题: Description Recently, Mike was very busy with studying for exams and contests. Now he is going t ...
为Elasticsearch添加中文分词，对比分词器效果
http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器).english(英文分词)和chi ...
使用Innosetup制作安装包的一些技巧
1. 选择安装界面上的图片 [Setup] ;设置界面上的两个图片 WizardImageFile=WizModernImage.bmp WizardSmallImageFile=WizSmallIm ...
oracle中rownum和rowid的区别
rownum和rowid的区别总括: rownum和rowid都是伪列,但是两者的根本是不同的. rownum是根据sql查询出的结果给每行分配一个逻辑编号,所以你的sql不同也就会导致最终rownu ...
使用JNDI或JDBC连接数据库
一. JNDI 1. tomcat环境找到X:\xxx\......\apache-tomcat-6.0.39\conf\server.xml,在<Host>节点中配置如下: <H ...
JSON基本用法
JSON基本用法 2016-08-10 16:42:19 JSON的全称是“JavaScript Object Notation”,意思是JavaScript对象表示法,它是一种基于文本,独立于语 ...
揭开HTTP网络协议神秘面纱系列(一）
1.了解Web及网络基础 TCP/IP协议族按层次可以分为下面四层: 应用层:决定了向用户提供应用服务时通信的活动,TCP/IP协议族内预存了各类通用的应用服务,比如:FTP(文件传输协议)和DNS( ...
mfc中Button、Edit Control和MFC EditBrowse Control的用法
[前(fei)言(hua)] 写LL(1)分析器被CString转string卡了一个多小时也是醉了. 趁着还算清醒写下这次用到的控件的使用方法好了. 这次实验的mfc用到了四个控件:Edit Con ...
wkwebview 和 JS 自用
-(void)webView:(WKWebView *)webView didCommitNavigation:(null_unspecified WKNavigation *)navigation{ ...

Hadoop HDFS 架构设计