从零自学Hadoop(10)：Hadoop1.x与Hadoop2.x

阅读目录

序
里程碑
Hadoop1.x与Hadoop2.x
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

序

　　上一篇，我们使用Maven构建了我的MapReduce程序，并且成功的运行了Job。那么大家可能会觉得为什么要这么做，有没有些理论依据，毕竟对hadoop的功能，特点有了了解后，做事情会心里稍微有点底。所以我们开始补些理论知识。

　　下面，我们就开始比较下Hadoop1.x与Hadoop2.x，感受下产品迭代的快乐。

　　申明，这一篇幅的图都是网上找的，就不打水印了，做人得厚道。

里程碑

一：里程碑

　　2003-2004年 Doug Cutting和Mike Cafarella利用业余时间实现了HDFS和MapReduce机制。

　　2005年作为Lucene的子项目Nutch正式引入Apache基金会

　　2006年MapReduce,NDFS分别被纳入Hadoop项目中

　　2010年发布0.20.2：security append

　　2011年12月0.20.线路发布1.0版本

　　2012年发布1.04

　　2011年10月份发布0.23.0：开始有了Yarn

　　2012年3月份发布2.0.0：alpha

　　2013年发布2.1.0：beta

　　2013年10月发布2.2.0：稳定版。很重要的版本，Yarn,High Availability for HDFS,HDFS Federation,HDFS Snapshots,Support for running Hadoop on Microsoft Windows

　　2014年11月发布2.6.0：很重要的版本，比如密钥管理服务器，凭证提供，支持SSD,热插拔DataNode,long running services in YARN,Support for rolling upgrades等。

　　2015年4月发布2.7.0：放弃了jdk1.6,不是稳定版，支持支持文件截断，Make YARN authorization pluggable等。

　　2015年7月发布2.7.1：2.7线路的稳定版。

　　2015年9月23号发布2.6.1：2.6线路的版本，修复了很多bug。

Hadoop1.x与Hadoop2.x

一：架构比较

　　Hadoop1.x中1的NameNodes只可能有一个，虽然可以通过SecondaryNameNode与NameNode进行数据同步备份，但是总会存在一定的时延，如果NameNode挂掉，但是如果有部份数据还没有同步到SecondaryNameNode上，还是可能会存在着数据丢失的问题。

　　Hadoop2.x中，HDFS的变化，主要体现在增强了NameNode的水平扩展及可用性，可以同时部署多个NameNode，这些NameNodes之间是相互独立，也就是说他们不需要相互协调，DataNode同时在所有NameNodes注册，做为他们共有的存储节点，并向定时向所有的这些NameNodes发送心跳块使用情况的报告，并处理所有NameNodes向其发送的指令。

　　Hadoop2.x中将MapReduce分成两部门，形成了Yarn（云资源管理系统），从而扩展出很多新的玩法。

二：定位

　　从图中，我们可以看到Hadoop1.x是单一功能使用系统，Hadoop2.x是多用途平台。2.x开始，hadoop的功能增强了许多，可以适合很多地方。

三：特性：

　　Hadoop1.x：批量应用

　　Hadoop2.x：批量应用，交互式，实时性，流式，内存计算。

四：HDFS与HDFS2

　　HDFS2多了高可用性。

五：MapReduce

　　Hadoop2.x中将原来1.x中的MapReduce的功能分开了，只保留了数据处理。将集群资源管理放到了Yarn中。从而让2.x的生态圈极大的扩展。

六：Hadoop2.x中HDFS架构

　　图中，我们可以看到一个NameNode(Active)还有一个NameNode(Standby)。这两者中间有JournalNode，放镜像文件，编辑日志文件。使用Zookeeper来保证故障转移，从而实现HA。还具有联邦的功能，

七：Yarn架构图

　　Hadoop发展到了2.6.0，Yarn也有了HA。Yarn把Datanode和应用的执行状态都存在RMStateStore上面。从而具有long running services,Support for rolling upgrades。任务挂了就不用重新跑了。太牛的功能了。

八：生态应用

　　Hadoop1.x其他的生态应用都是基于MapReduce上面的，但是到了Hadoop2.x，他将资源管理的的放到了Yarn，那么其他的生态应用，可以基于MapReduce的计算框架，也可以选择Tez(DAG计算框架),Storm（流式计算框架）。所以使用范围大大的扩展开来。

--------------------------------------------------------------------

　　到此，本章节的内容讲述完毕。

系列索引

　　【源】从零自学Hadoop系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

从零自学Hadoop(10)：Hadoop1.x与Hadoop2.x的更多相关文章

从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
从零自学Hadoop(02)：环境准备
阅读目录起因虚拟机 Linux 系统安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceL ...
从零自学Hadoop(03)：Linux准备上
阅读目录序检查列表常用Linux命令搭建环境系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sou ...
从零自学Hadoop(08)：第一个MapReduce
阅读目录序数据准备 wordcount Yarn 新建MapReduce 示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是 ...
从零自学Hadoop(09)：使用Maven构建Hadoop工程
阅读目录序 Maven 安装构建示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Source ...
从零自学Hadoop(11)：Hadoop命令上
阅读目录序概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用系列索引本文版 ...
从零自学Hadoop(25)：Impala相关操作下
阅读目录序导入数据查询系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一 ...
从零自学Hadoop(22)：HBase协处理器
阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...

随机推荐

RAC某节点启动遭遇ORA-01105，ORA-01606
环境:RHEL6.5 + Oracle11.2.0.4 双节点RAC 故障现象:节点1实例没有启动成功,节点2正常启动. 1.故障现象 2.解决过程 3.总结 1.故障现象尝试启动RAC 节点1,遭 ...
探秘Tomcat——从一个简陋的Web服务器开始
前言: 无论是之前所在实习单位小到一个三五个人做的项目,还是如今一个在做的百人以上的产品,一直都能看到tomcat的身影.工作中经常遇到的操作就是启动和关闭tomcat服务,或者修改了摸个java文件 ...
（1）从底层设计，探讨插件式GIS框架的实现
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 研一时,听当时的师兄推荐,买了蒋波涛的一本关于GIS插件框架的书.当时 ...
HTML5 Application cache初探和企业应用启示
Application Cache 在自己做的开源项目( https://github.com/etoah/Lucien ) 用到了HTML5 的Application Cache,现总结如下: 目录 ...
解决asp.net mvc的跨域请求问题
web.config中配置如下内容: <system.webServer> <httpProtocol> <customHeaders> <add name= ...
trace与代码跟踪服务
首先开篇引用<MVC2 2 in action>里面一段关于这个跟踪服务的话 When you called Trace.Write() in Web Forms, you were in ...
《数据结构与算法Python语言描述》习题第二章第一题（python版）
题目:定义一个表示时间的类Timea)Time(hours,minutes,seconds)创建一个时间对象:b)t.hours(),t.minutes(),t.seconds()分别返回时间对象t的 ...
Python默认版本修改
Python默认版本修改当电脑安装了多个版本的Python,而Shell中默认的Python不是你想要的,这个时候就需要对Python的默认版本进行修改. 在Windows中,可以通过修改环境变量的 ...
Mac上编译C++报错
今天在使用Mac编译C++文件时,提示以下错误. Undefined symbols for architecture x86_64: "std::__1::__vector_base_co ...
IT基础架构规划方案三(IT基础软件和系统规划)
IT基础软件和系统规划操作系统选型规划方案根据对某集团的实际调研,获取了企业业务应用系统的建设情况,随着企业信息化建设的推进,需要对各种信息化管理系统和应用系统的服务器选型进行选型规划,根据不同的 ...

从零自学Hadoop(10)：Hadoop1.x与Hadoop2.x

阅读目录

序

里程碑

一：里程碑

Hadoop1.x与Hadoop2.x

一：架构比较

二：定位

三：特性：

四：HDFS与HDFS2

五：MapReduce

六：Hadoop2.x中HDFS架构

七：Yarn架构图

八：生态应用

系列索引

从零自学Hadoop(10)：Hadoop1.x与Hadoop2.x的更多相关文章

随机推荐

热门专题