虽然hadoop经历了多年的发展，作为技术人员都或多或少的使用过或者了解过。这里还是做一个简单的总结，主要原因是之前主要是做hadoop的开发，对hadoop的运维知之甚少，但真正的接触到hadoop运维的工作的时候，其实会发现，对hadoop的一整套框架和理论知识都需要系统的学习，才能把工作做得更好，同时做基于hadoop的数据分析工作的时候，也时常会涉及到一些hadoop参数的调优。因此，在这里做一个简单的总结。由于是自己查阅资料并结合工作进行总结的，不免有疏漏或者错误之处，遇到了敬请一并指出。

一、hadoop是什么：

hadoop是Apache下使用JAVA开发的一个集分布式存储和分布式计算分析于一体的开源软件框架。其中最核心的设计是HDFS和MapReduce，HDFS对大数据存储提供支持，MapReduce则是分布式的计算框架。基于HDFS和MapReduce，hadoop还提供了类SQL分析查询工具HIVE和KV数据库Hbase，以及最近活跃的内存计算引擎Spark等等。

下面将简单介绍其中的几个组件运行机制及操作方法：HDFS、MapReduce、Hive

二、HDFS：

HDFS是为用户提供分布式的文件存储服务的软件框架，主要有以下几个方面的特点：

1、高容错性：由于HDFS的文件备份机制，一份文件会同时在HDFS集群中不同的机器甚至机架上备份多份文件，因此保证了文件不会因某一台机器出现故障而导致数据丢失的情况。

2、数据批处理：HDFS设计就是用来存储大数据文件的、一次写入、多次读取的应用场景而设计的。

3、使用BLOCK作为基本的存储单元：在HDFS中，使用block(文件块)作为基本数据存储单元，一个block空间为64M或者128M（可由用户自定义配置），一个文件会切分为多个block存储在HDFS中，方便了文件的管理和读取。

一个HDFS集群基本由3部分组成：client、namenode、datanode，表现为一个主从的结构，如下图所示：

namenode:HDFS master节点，负责维护整个HDFS的元数据信息，包括文件目录树和文件写记录信息，并且这些信息是维护在内存中。由于HDFS中的文件是以block单位组织的，一个文件的一个block的元数据大小约为130字节，一个文件大小小于block size的文件在HDFS中也会占据一个block（尽管在物理硬盘上实际没有占据这么大的空间），假设有1000万个文件，则会在namenode中消耗约2G的内存(由于文件有多份备份，实际消耗的可能更多)。

datanode:slave节点，负责保存文件的具体数据，并时刻向namenode汇报节点的状态和block信息。

client：向namenode发起文件读写请求，然后从datanode中读写数据。

可以看到，由于namenode是把数据直接放在内存中的，尽管也有checkpoint机制将文件元数据信息持久化到内存中，但单点问题还是导致整个集群的稳定性较差。

HDFS容错机制：

seconday namenode：

seconday namenode本身不对外提供服务，只是实时将namenode的信息同步过来，并完成写日志的合并操作，再将这些信息写入磁盘，因此在namenode挂了之后，可以通过seconday namenode的信息将元数据恢复过来。由于namenode和seconday namenode本身并不会持久化block的状态信息，因此恢复过程中，需要datanode将自己所维护的block状态信息发送给新的namenode，同时由于HDFS的元数据信息是从磁盘恢复到内存，因此恢复集群的服务需要一定的时间。

HDFS HA：

HDFS HA机制增加一个standby节点来提高HDFS的集群服务稳定性

Active namenode节点对外提供服务，Standby namenode节点实时同步Active namenode节点的元数据信息和写日志到自己的内存中，并且Active namenode和Standby namenode都可以配置自己的seconday namenode。集群中的datanode节点不仅需要将自己的状态信息发送给Active namenode，也需要将这些信息发送给Standby namenode，因此保证了Active namenode和Standby namenode的数据一致性。当Active namenode节点挂掉之后，我们可以直接热切换到Standby namenode，因此对外界来讲，集群服务的故障时间是很短暂的，基本保证了整个HDFS集群的高可用性。

HDFS文件写入过程：

client端首先向namenode发起文件写请求，namenode根据集群的状态和datanode的空闲情况，确定待写入文件的datanode节点位置信息并将这些信息返回给client。client获得datanode节点位置信息后向datanode节点发起具体的文件写入请求，然后将文件逐步读入client的内存缓冲区，当client的内存缓冲区的大小达到一个block size大小时，把数据发送给datanode1，datanode1完成数据接收后向另外一个datanode拷贝这份文件，形成备份文件，之后datanode1向namenode发送消息，报告文件的位置信息，最终结束写事件。

HDFS文件读过程：

client向namenode发起文件读请求，namenode判断请求的文件是否存在，如果不存在就直接返回，否则，namenode将返回该文件及其备份所在的datanode及具体的block信息。client拿到datanode和block信息信息后，向具体的datanode发起文件读请求并发送block信息，datanode拿到block信息后读取block对应的文件数据并将数据返回给client，如果整个数据读取结束，就完成了HDFS的读数据的过程。如果中途有datanode挂了的话，client则去读其文件副本所在的datanode的文件数据。

下一节将简要介绍MapReduce的过程。

hadoop入门级总结一：HDFS的更多相关文章

hadoop入门级总结二：Map/Reduce
在上一篇博客:hadoop入门级总结一:HDFS中,简单的介绍了hadoop分布式文件系统HDFS的整体框架及文件写入读出机制.接下来,简要的总结一下hadoop的另外一大关键技术之一分布式计算框架: ...
Hadoop学习笔记： HDFS
注:该文内容部分来源于ChinaHadoop.cn上的hadoop视频教程. 一. HDFS概述 HDFS即Hadoop Distributed File System, 源于Google发表于200 ...
hadoop的API对HDFS上的文件访问
这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到 ...
hadoop系列二：HDFS文件系统的命令及JAVA客户端API
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoo ...
Hadoop集群(二) HDFS搭建
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
一图看懂hadoop分布式文件存储系统HDFS工作原理
一图看懂hadoop分布式文件存储系统HDFS工作原理
Hadoop（四）HDFS的高级API操作
一 HDFS客户端环境准备 1.1 jar包准备 1)解压hadoop-2.7.6.tar.gz到非中文目录 2)进入share文件夹,查找所有jar包,并把jar包拷贝到_lib文件夹下 3)在全部 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...

随机推荐

Hadoop 3.x 新特性剖析系列1
1.概述目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0.那么,今天笔者就带着大 ...
eclipse下如何使用Hibernate反转工程生与数据库对应的实体类和映射文件（以MySQL为例）
首先需要为eclipse添加对Hibernate的支持(也就是下载的Hibernate中的jar包),下载方法另查,这里不多做阐述. 想要使用反转工程,首先要下载Hibernate反转工程的插件Jbo ...
Python系列之 - 上下文管理协议
with obj as f: '代码块' 1.with obj ---->触发obj.__enter__(),拿到返回值 2.as f----->f=返回值. 3.with obj as ...
Linux 在添加一个新账号后却没有权限怎么办
当添加一个新账号后,我们可能会发现新账号sudo 时会报告不在sudoers中,使用su -s时输入密码后也会认证失败上网搜索大部分都要求修改/etc/sudoers中的内容,但修改这个文件必须需要 ...
bzoj4919 [Lydsy1706月赛]大根堆
Description 给定一棵n个节点的有根树,编号依次为1到n,其中1号点为根节点.每个点有一个权值v_i. 你需要将这棵树转化成一个大根堆.确切地说,你需要选择尽可能多的节点,满足大根堆的性质: ...
●BZOJ 1096 [ZJOI2007]仓库建设
题链: http://www.lydsy.com/JudgeOnline/problem.php?id=1096 题解: 斜率优化DP $(d_i:i 位置到1位置的距离,p_i:i位置的成品数量,c ...
[USACO Dec06]产奶的模式
Description 农夫约翰发现他的奶牛产奶的质量一直在变动.经过细致的调查,他发现:虽然他不能预见明天产奶的质量,但连续的若干天的质量有很多重叠.我们称之为一个“模式”. 约翰的牛奶按质量可以被 ...
【无语凝噎（wordless）】
·题目: 西施与范蠡泛舟而去……不对,场景不对,咳咳.在甄嬛前往蓬莱洲之前,她与皇上在碧桐书院告别.为了这可能会长达数月的离别,两个人都似乎有很多话要对对方说,却都无语凝噎.这时,皇上 ...
[APIO2010]
A.特别行动队 n<=1000000 看了数据范围和题目感觉就像是斜率优化,然后瞎推了一波式子,没想到A了. sij表示i+1到j的权值和. j比k优秀 $$fj+a*sij^{2}+b*si ...
spring+hibernate+struts2零配置整合
说句实话,很久都没使用SSH开发项目了,但是出于各种原因,再次记录一下整合方式,纯注解零配置. 一.前期准备工作 gradle配置文件: group 'com.bdqn.lyrk.ssh.study' ...

hadoop入门级总结一：HDFS

一、hadoop是什么：

二、HDFS：

hadoop入门级总结一：HDFS的更多相关文章

随机推荐

热门专题