Hadoop 2.x简介
Hadoop 2.0产生背景
- Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题
 - HDFS存在的问题
- NameNode单点故障,难以应用于在线场景
 - NameNode压力过大,且内存受限,影响系统扩展性
 
 - MapReduce存在的问题
- JobTracker访问压力大,影响系统扩展性
 - 难以支持除MapReduce之外的计算框架,比如Spark 、Storm等
 
 
 MapReduce是离线计算框架,计算时间会比较长
 Spark是内存计算框架,更快
 Storm是流计算框架,可实时获取计算结果
Hadoop 1.x 与Hadoop 2.x
- Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成
- HDFS : NN Federation、HA;
 - MapReduce : 运行在YARN上的MR
 - YARN : 资源管理系统(内存、CPU资源)
 
 
Federation把元数据分成两个独立的NameNode去工作。
YARN知道任何一台机器的使用情况,在执行任务的时候,首先去YARN上申请,YARN 分配到某台机器上去执行,可做到资源不浪费
HDFS存储的数据可由MapReduce进行计算,也可以由其它的计算框架计算
HDFS 2.x优点
- 解决HDFS 1.0中单点故障和内存受限问题
 - 解决单点故障
- HDFS HA : 通过主备NameNode解决(只有一个NameNode正常工作,其它都是备用)
 - 如果主NameNode发生故障,则切换到备NameNode上
 
 - 解决内存受限问题
- HDFS Federation(联邦)
 - 水平扩展,支持多个NameNode
 - 每个NameNode分管一部分目录(相互独立)
 - 所有NameNode共享所有DataNode存储资源
 
 - 2.x仅是架构上发生了变化,使用方式不变
 - 对HDFS使用者透明
 - HDFS 1.X中的命令和API仍可以使用
 
Hadoop 2.x简介的更多相关文章
- Hadoop开发环境简介(转)
		
1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0 ...
 - Hadoop发展历史简介
		
简介 本篇文章主要介绍了Hadoop系统的发展历史以及商业化现状, 科普文. 如果你喜欢本博客,请点此查看本博客所有文章:http://www.cnblogs.com/xuanku/p/index.h ...
 - Hadoop体系架构简介
		
今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现,MapReduce ...
 - 二十六、Hadoop学习笔记————Hadoop Yarn的简介复习
		
1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 之前有提到过,Yarn主要是为了减轻Hadoop ...
 - Hadoop mapreduce框架简介
		
传统hadoop MapReduce架构(老架构) 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 1.首先用户程序 (JobClient) 提交了一个 job,job ...
 - Hadoop主要生态系统简介
		
Hadoop的起源 Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与Google类似),Lucene后来面临与Goo ...
 - hadoop(十一)HDFS简介和常用命令介绍
		
HDFS背景 随着数据量的增大,在一个操作系统中内存不了了,就需要分配到操作系统的的管理磁盘中,但是不方便管理者维护,迫切需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统. HDFS的概念 ...
 - hadoop学习笔记(一):hadoop生态系统及简介
		
一.hadoop1.x的生态系统 HBase:实时分布式数据库 相当于关系型数据库,数据放在文件中,文件就放在HDFS中.因此HBase是基于HDFS的关系型数据库.实时性:延迟非常低,实时性高. 举 ...
 - 【hadoop】——window下elicpse连接hadoop集群基础超详细版
		
1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0 ...
 
随机推荐
- Unity多个场景叠加或大场景处理方法小结
			
本文章由cartzhang编写.转载请注明出处. 全部权利保留. 文章链接: http://blog.csdn.net/cartzhang/article/details/47614153 作者:ca ...
 - u3D大场景的优化
			
首先介绍下draw call(这个东西越少你的游戏跑的越快): 在游戏中每一个被展示的独立的部分都被放在了一个特别的包中,我们称之为“描绘指令”(draw call),然后这个包传递到3D部分在屏幕上 ...
 - .net之GridView、DataList、DetailsView(一)
			
GridView:两种数据绑定方法 方法一:得到数据后,赋给DataSource属性,然后执行控件的DataBind()方法. BLL.Article bll = new BLL.Article(); ...
 - python中常用的base64 md5 aes des crc32等的加密解密
			
1.base64 Python内置的base64模块可以实现base64.base32.base16.base85.urlsafe_base64的编码解码,python 3.x通常输入输出都是二进制形 ...
 - Java并发编程(一)学习大纲
			
(一)学习大纲 (二)线程与并发编程的概念 (三)线程安全.原子操作.复合操作.竞态条件.加锁机制(内置锁.重入) (四)对象的共享:可见性.失效数据.非原子的64位操作,加锁与可见性,volatil ...
 - 【Mac系统】之fiddler下载和安装
			
使用教程参考:http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html#request 一.首先,在Mac下安装fiddler时, ...
 - 题外话:计算密集型 vs  IO密集型
			
我们把任务分为计算密集型和IO密集型,erlang作为IO密集型的语言,适合网关等相关的场景,而对计算达到某一量级后,可能处理效率下降的很明显. erlang不适合数值计算.erlang是解释型的,虽 ...
 - 使用GitBook, Git  github, Markdown 快速发布你的书籍
			
利用git作为版本管理和发布工具 你可以直接通过npm安装gitbook到全局 npm install -g gitbook gitbook只提供了如下四个命令 gitbook -h Usage: g ...
 - spring 事务传播行为类型
			
事务传播行为种类 Spring在TransactionDefinition接口中规定了7种类型的事务传播行为, 它们规定了事务方法和事务方法发生嵌套调用时事务如何进行传播: 事务传播行为类型 说明 P ...
 - KPI、KPA、OKR三者的区别
			
KPI.KPA或者OKR并不是水火不相容有你无我的概念,针对不对的业务状态.管理模式应该有所选择.以下是介绍它们之间的区别. 什么是KPI关键绩效指标 KPI(key performance indi ...
 
			
		