从零自学Hadoop(10):Hadoop1.x与Hadoop2.x
阅读目录
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作。
文章是哥(mephisto)写的,SourceLink
序
上一篇,我们使用Maven构建了我的MapReduce程序,并且成功的运行了Job。那么大家可能会觉得为什么要这么做,有没有些理论依据,毕竟对hadoop的功能,特点有了了解后,做事情会心里稍微有点底。所以我们开始补些理论知识。
下面,我们就开始比较下Hadoop1.x与Hadoop2.x,感受下产品迭代的快乐。
申明,这一篇幅的图都是网上找的,就不打水印了,做人得厚道。
里程碑
一:里程碑
2003-2004年 Doug Cutting和Mike Cafarella利用业余时间实现了HDFS和MapReduce机制。
2005年作为Lucene的子项目Nutch正式引入Apache基金会
2006年MapReduce,NDFS分别被纳入Hadoop项目中
2010年发布0.20.2:security append
2011年12月0.20.线路发布1.0版本
2012年发布1.04
2011年10月份发布0.23.0:开始有了Yarn
2012年3月份发布2.0.0:alpha
2013年发布2.1.0:beta
2013年10月发布2.2.0:稳定版。很重要的版本,Yarn,High Availability for HDFS,HDFS Federation,HDFS Snapshots,Support for running Hadoop on Microsoft Windows
2014年11月发布2.6.0:很重要的版本,比如密钥管理服务器,凭证提供,支持SSD,热插拔DataNode,long running services in YARN,Support for rolling upgrades等。
2015年4月发布2.7.0:放弃了jdk1.6,不是稳定版,支持支持文件截断,Make YARN authorization pluggable等。
2015年7月发布2.7.1:2.7线路的稳定版。
2015年9月23号发布2.6.1:2.6线路的版本,修复了很多bug。
Hadoop1.x与Hadoop2.x
一:架构比较
Hadoop1.x中1的NameNodes只可能有一个,虽然可以通过SecondaryNameNode与NameNode进行数据同步备份,但是总会存在一定的时延,如果NameNode挂掉,但是如果有部份数据还没有同步到SecondaryNameNode上,还是可能会存在着数据丢失的问题。
Hadoop2.x中,HDFS的变化,主要体现在增强了NameNode的水平扩展及可用性,可以同时部署多个NameNode,这些NameNodes之间是相互独立,也就是说他们不需要相互协调,DataNode同时在所有NameNodes注册,做为他们共有的存储节点,并向定时向所有的这些NameNodes发送心跳块使用情况的报告,并处理所有NameNodes向其发送的指令。
Hadoop2.x中将MapReduce分成两部门,形成了Yarn(云资源管理系统),从而扩展出很多新的玩法。
二:定位
从图中,我们可以看到Hadoop1.x是单一功能使用系统,Hadoop2.x是多用途平台。2.x开始,hadoop的功能增强了许多,可以适合很多地方。
三:特性:
Hadoop1.x:批量应用
Hadoop2.x:批量应用,交互式,实时性,流式,内存计算。
四:HDFS与HDFS2
HDFS2多了高可用性。
五:MapReduce
Hadoop2.x中将原来1.x中的MapReduce的功能分开了,只保留了数据处理。将集群资源管理放到了Yarn中。从而让2.x的生态圈极大的扩展。
六:Hadoop2.x中HDFS架构
图中,我们可以看到一个NameNode(Active)还有一个NameNode(Standby)。这两者中间有JournalNode,放镜像文件,编辑日志文件。使用Zookeeper来保证故障转移,从而实现HA。还具有联邦的功能,
七:Yarn架构图
Hadoop发展到了2.6.0,Yarn也有了HA。Yarn把Datanode和应用的执行状态都存在RMStateStore上面。从而具有long running services,Support for rolling upgrades。任务挂了就不用重新跑了。太牛的功能了。
八:生态应用
Hadoop1.x其他的生态应用都是基于MapReduce上面的,但是到了Hadoop2.x,他将资源管理的的放到了Yarn,那么其他的生态应用,可以基于MapReduce的计算框架,也可以选择Tez(DAG计算框架),Storm(流式计算框架)。所以使用范围大大的扩展开来。
--------------------------------------------------------------------
到此,本章节的内容讲述完毕。
系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作。
文章是哥(mephisto)写的,SourceLink
从零自学Hadoop(10):Hadoop1.x与Hadoop2.x的更多相关文章
- 从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
- 从零自学Hadoop(02):环境准备
阅读目录 起因 虚拟机 Linux 系统安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceL ...
- 从零自学Hadoop(03):Linux准备上
阅读目录 序 检查列表 常用Linux命令 搭建环境 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sou ...
- 从零自学Hadoop(08):第一个MapReduce
阅读目录 序 数据准备 wordcount Yarn 新建MapReduce 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是 ...
- 从零自学Hadoop(09):使用Maven构建Hadoop工程
阅读目录 序 Maven 安装 构建 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Source ...
- 从零自学Hadoop(11):Hadoop命令上
阅读目录 序 概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用 系列索引 本文版 ...
- 从零自学Hadoop(25):Impala相关操作下
阅读目录 序 导入数据 查询 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一 ...
- 从零自学Hadoop(22):HBase协处理器
阅读目录 序 介绍 Observer操作 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
- 从零自学Hadoop(20):HBase数据模型相关操作上
阅读目录 序 介绍 命名空间 表 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
随机推荐
- 利用GeoWebCache实现WebGIS地形图展示的缓存优化
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 在WebGIS中,影像金字塔是一个很重要的概念.在WebGI ...
- Spring加载xsd引起的问题小记
前言 最近要把之前写好的监控系统加上报警功能,就是通过rpc调用发短信发邮件的服务发送报警信息.发短信发邮件的功能是通过dubbo管理提供的.自然使用这些服务就难免用到spring.而我这又是一个st ...
- [Java 安全]消息摘要与数字签名
消息摘要 算法简述 定义 它是一个唯一对应一个消息或文本的固定长度的值,它由一个单向Hash加密函数对消息进行作用而产生.如果消息在途中改变了,则接收者通过对收到消息的新产生的摘要与原摘要比较,就可知 ...
- 一步一步拆解一个简单的iOS轮播图(三图)
导言(可以不看): 不吹不黑,也许是东半球最简单的iOS轮播图拆分注释(讲解不敢当)了(tree new bee).(一句话包含两个人,你能猜到有谁吗?提示:一个在卖手机,一个最近在卖书)哈哈... ...
- 【吐槽】gist.github.com疑遭中间人攻击
北京时间201510081004,云南电信用户,现在上https://gist.github.com/,用IE10会提示证书被伪造,用搜狗4.1.3.9668会跳转到[http://www.cjb.n ...
- 从零开始学 Java - CentOS 下安装 Tomcat
生活以痛吻我,我仍报之以歌 昨天晚上看到那个冯大辉老师的微信公众号,「小道消息」上的一篇文章,<生活以痛吻我,我仍报之以歌>.知乎一篇匿名回答,主题为<冯大辉到底是不是技术大牛,一个 ...
- JMeter专题系列(七)聚合报告之 90% Line
JMeter 官网原文: 90% Line - 90% of the samples took no more than this time. The remaining samples at lea ...
- 取消IE提示下载安全提问
需求:在企业访问内部WEB系统下载文件时,IE总会弹出安全提问,征得用户同意后弹出下载保存框.现用户需要点击下载后,直接弹出下载保存框. 方案:这涉及IE安全定义问题,进行相关设置即可.方法如下:
- js--找字符串中出现最多的字符
在一个字符串中,如 'zhaochucichuzuiduodezifu',我们要找出出现最多的字符.本文章将详细说明方法思路. 先介绍两个string对象中的两个方法:indexOf()和charAt ...
- 翻译:常见问题——ABAP Development Tools for Eclipse
ABAP Development Tools for Eclipse(简称ADT)是一个基于Eclipse的全新ABAP IDE,这篇文档试图回答有关ADT的最重要的常见问题.这只是一个开始,如果你对 ...


