32916445

六、Hadoop1.x与Hadoop2的区别

1、变更介绍

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：

l HDFS的NameNodes可以以集群的方式布署，增强了NameNodes的水平扩展能力和可用性；

l MapReduce将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的组件，并更名为YARN（Yet Another Resource Negotiator）。

1.1、HDFS的变化 - 增强了NameNode的水平扩展及可用性

1.1.1、Hadoop的1.X架构的介绍

而在1.x中的NameNodes只可能有一个，虽然可以通过SecondaryNameNode与NameNode进行数据同步备份，但是总会存在一定的时延，如果NameNode挂掉，但是如果有部份数据还没有同步到SecondaryNameNode上，还是可能会存在着数据丢失的问题。

架构如下：

包含两层：

Namespace

l 包含目录、文件以及块的信息

l 支持对Namespace相关文件系统的操作，如增加、删除、修改以及文件和目录的展示

Block Storage Service包含两部份

l 块管理（在Namenode中实现的）

提供数据节点群集成员的登记，并定期通过心跳进行检查。

提供块报告以及块的存储位置的维护

提供对块的操作，如对块进行增删改的操作及获取块的存储地址

对块的复本的的复制以及存储位置的管理

l 存储 - 提供Datanode进行数据的本地存储，并提供读写的操作

1.1.1、Hadoop的2.X架构的介绍

在2.X中，HDFS的变化，主要体现在增强了NameNode的水平扩展及可用性，可以同时部署多个NameNode，这些NameNodes之间是相互独立，也就是说他们不需要相互协调，DataNode同时在所有NameNodes注册，做为他们共有的存储节点，并向定时向所有的这些NameNodes发送心跳块使用情况的报告，并处理所有NameNodes向其发送的指令。

架构如下：

存储块池（Block Pool）

一个存储块池是由一组存储块组成，它属于一个单独的Namespace（Namenode），集群中所有存储块池的存储块都是存放在Datanodes中的。每个存储块池与其它的存储块池都是独立管理的，因而其在为新的块生成Block IDs时，就不需要与其它Namespace（Namenode）中的存储块池进行协作，即使一个Namespace（Namenode）挂掉了，也不会使得Datanodes中的块被访问不到，因为其它 Namespace（Namenode）中的存储块池也存放了Datanodes中所有存储块的信息。

一个命名空间(Namespace) 和它的块池一起被称为命名空间向量。它是一个自包含的管理单元。当一个Namenode/namespace被删除，存储于Datanodes中的相应的存储块池也会被删除掉，在集群的更新过程中，每个命名空间向量都是以一个整体进行升级的。

集群ID（ClusterID）

集群ID的加入，是用于确认集群中所有的节点，也可以在格式化其它Namenodes时指定集群ID，并使其加入到某个集群中。

1.2、MapReduce拆分JobTracker为资源管理及任务生命周期管理两个独立的组件

MapReduce在Hadoop2中称为MR2或YARN，将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的服务，用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster，ResourceManager用于管理向应用程序分配计算资源，每个ApplicationMaster用于管理应用程序、调度以及协调。一个应用程序可以是经典的MapReduce架构中的一个单独的任务，也可以是这些任务的一个DAG（有向无环图）任务。ResourceManager及每台机上的NodeManager服务，用于管理那台机的用户进程，形成计算架构。每个应用程序的ApplicationMaster实际上是一个框架具体库，并负责从ResourceManager中协调资源及与NodeManager(s)协作执行并监控任务。

架构图：

其中ResourceManager包含两个主要的组件：定时调用器(Scheduler)以及应用管理器(ApplicationManager)。

定时调用器(Scheduler)：

定时调度器负责向应用程序分配置资源，它不做监控以及应用程序的状态跟踪，并且它不保证会重启由于应用程序本身或硬件出错而执行失败的应用程序。

应用管理器(ApplicationManager)：

应用程序管理器负责接收新任务，协调并提供在ApplicationMaster容器失败时的重启功能。

节点管理器（NodeManager）：

NodeManager是ResourceManager在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager/Scheduler提供这些资源使用报告。

应用总管（ApplicationMaster）：

每个应用程序的ApplicationMaster负责从Scheduler申请资源，以及跟踪这些资源的使用情况以及任务进度的监控。

2、具体变化

2.1、配置文件的路径

在1.x中，Hadoop的配置文件是放在$HADOOP_HOME/conf目录下的，关键的配置文件在src目录都有对应的存放着默认值的文件，如下：

配置文件	默认值配置文件
$HADOOP_HOME/conf/core-site.xml	$HADOOP_HOME/src/core/core-default.xml
$HADOOP_HOME/conf/hdfs-site.xml	$HADOOP_HOME/src/hdfs/hdfs-default.xml
$HADOOP_HOME/conf/mapred-site.xml	$HADOOP_HOME/src/mapred/mapred-default.xml

我们在$HADOOP_HOME/conf下面配置的core-site.xml等的值，就是对默认值的一个覆盖，如果没有在conf下面的配置文件中设置，那么就使用src下面对应文件中的默认值，这个在使用过程中非常方便，也非常有助于我们理解。

Hadoop可以说是云计算的代名词，其也有很多衍生的产品，不少衍生的配置方式都遵从Hadoop的这种配置方式，如HBase的配置文件也是$HBase/conf目录，核心配置的名称就是hbase-site.xml，如果学习了Hadoop再去学习HBase，从配置的理解上来说，就会有一种亲切的感觉。

可是在2.x中，Hadoop的架构发生了变化，而配置文件的路径也发生了变化，放到了$HADOOP_HOME/etc/hadoop目录，这样修改的目的，应该是让其更接近于Linux的目录结构吧，让Linux用户理解起来更容易。Hadoop 2.x中配置文件的几个主要的变化：

l 去除了原来1.x中包括的$HADOOP_HOME/src目录，该目录包括关键配置文件的默认值；

l 默认不存在mapred-site.xml文件，需要将当前mapred-site.xml.template文件copy一份并重命名为mapred-site.xml，并且只是一个具有configuration节点的空文件；

l 默认不存在mapred-queues.xml文件，需要将当前mapred-queues.xml.template文件copy一份并重命名为mapred-queues.xml；

l 删除了master文件，现在master的配置在hdfs-site.xml通过属性dfs.namenode.secondary.http-address来设置，如下：

<name>dfs.namenode.secondary.http-address</name>

<value>nginx1:9001</value>

</property>

l 增加了yarn-env.sh，用于设置ResourceManager需要的环境变量，主要需要修改JAVA_HOME；

l 增加yarn-site.xml配置文件，用于设置ResourceManager；

2.2、命令文件目录的变化

在1.x中，所有的命令文件，都是放在bin目录下，没有区分客户端和服务端命令，并且最终命令的执行都会调用hadoop去执行；而在2.x中将服务端使用的命令单独放到了sbin目录，其中有几个主要的变化：

l 将./bin/hadoop的功能分离。在2.x中./bin/hadoop命令只保留了这些功能：客户端对文件系统的操作、执行Jar文件、远程拷贝、创建一个Hadoop压缩、为每个守护进程设置优先级及执行类文件，另外增加了一个检查本地hadoop及压缩库是否可用的功能，详情可以通过命令“hadoop -help”查看。

而在1.x中，./bin/hadoop命令还包括：NameNode的管理、DataNode的管理、 TaskTracker及JobTracker的管理、服务端对文件系统的管理、文件系统的检查、获取队列信息等，详情可以通过命令“hadoop -help”查看。

l 增加./bin/hdfs命令。./bin/hadoop命令的功能被剥离了，并不是代表这些命令不需要了，而是将这些命令提到另外一个名为hdfs的命令中，通过hdfs命令可以对NameNode格式化及启动操作、启动datanode、启动集群平衡工具、从配置库中获取配置信息、获取用户所在组、执行DFS的管理客户端等，详细可以通过“hdfs -help”查看。

l 增加./bin/yarn命令。原来1.x中对JobTracker及TaskTracker的管理，放到了新增的yarn命令中，该命令可以启动及管理ResourceManager、在每台slave上面都启一个NodeManager、执行一个JAR或CLASS文件、打印需要的classpath、打印应用程序报告或者杀死应用程序等、打印节点报告等，详情可以通过命令“yarn -help”查看。

l 增加./bin/mapred命令。该命令可以用于执行一个基于管道的任务、计算MapReduce任务、获取队列的信息、独立启动任务历史服务、远程目录的递归拷贝、创建hadooop压缩包，详情可以通过“./mapred -help”。

Hadoop1.x与Hadoop2的区别的更多相关文章

从零自学Hadoop(10)：Hadoop1.x与Hadoop2.x
阅读目录序里程碑 Hadoop1.x与Hadoop2.x 系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的 ...
Hadoop入门进阶步步高（六）-Hadoop1.x与Hadoop2的差别
六.Hadoop1.x与Hadoop2的差别 1.变更介绍 Hadoop2相比較于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了非常大的提高,Ha ...
大数据入门基础系列之Hadoop1.X、Hadoop2.X和Hadoop3.X的多维度区别详解（博主推荐）
不多说,直接上干货! 在前面的博文里,我已经介绍了大数据入门基础系列之Linux操作系统简介与选择大数据入门基础系列之虚拟机的下载.安装详解大数据入门基础系列之Linux的安装详解大数据入门基 ...
hadoop之 Hadoop1.x和Hadoop2.x构成对比
Hadoop1.x构成: HDFS.MapReduce(资源管理和任务调度):运行时环境为JobTracker和TaskTracker: Hadoop2.0构成:HDFS.MapReduce/其他 ...
Hadoop1.0 与Hadoop2.0
Hadoop1.0的局限-MapReduce •扩展性 –集群最大节点数–4000 –最大并发任务数–40000 (当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增 ...
Hadoop1.x与Hadoop2.x之间的差异
一.Hadoop2.x产生背景 1.Hadoop1.x中的HDFS和MapReduce在高可用.扩展性等方面存在问题. 2.HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景. 2. ...
Hadoop1.0 和 Hadoop2.0
date: 2018-11-16 18:54:37 updated: 2018-11-16 18:54:37 1.从Hadoop整体框架来说 1.1 Hadoop1.0即第一代Hadoop,由分布式存 ...
Hadoop入门
一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)Hadoop主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指 ...
HDFS2.0架构以及HA详解
HDFS2.0概述一背景,Hadoop1.0中HDFS和MapReduce在高可用,扩展性等方面存在问题 HDFS存在问题,1,NameNode单点故障,难以应用于在线场景.2,NameNod ...

随机推荐

Cocos2D-x搭建新环境注意事项
网上资源都说安装Python后, 设置环境变量, 解压Cocos2Dx压缩包就OK, 但运行CppTest还是会报错, 以下是错误解决方案: 1. 错误提示 error LNK1123: failur ...
1452: [JSOI2009]Count - BZOJ
Description Input Output Sample Input Sample Output 1 2HINT 一开始还想什么离线做,其实不用,空间足够,我们直接开100个二维树状数组,然后就 ...
mysql数据库备份及恢复命令mysqldump,source的用法
还原一个数据库:mysql -h localhost -u root -p123456 www<c:/www.sql 备份一个数据库:mysqldump -h localhost -u root ...
linux下php多版本的并存实现
其实最简单的方法,就是通过nginx,生成多个php使用不同的端口,这实在简单,我写了两个版本,一个是apche服务,一个是nginx服务,使用一两个不同的版本,爽!
Ios8新特性-应用程序扩展
一.什么是应用程序扩展? 应用程序扩展不是一个应用,它是主体应用程序(containing app)中一个单独的包,并能生成单独的二进制文件供其他应用调用. 个人感觉,类似于WP中的启动器,把系统当个 ...
Emmet快速编写CSS样式
基本的CSS样式编写时,很多样式只需输入首字母即可得到不带属性值的CSS样式,像上面说到的margin. 1.而对于一些带有特定的属性值的CSS样式,只需输入CSS标签与属性值的首字母就可以,比如: ...
XEE介绍
摘要: XMl Entity Expansion(攻击)某种程度上类似于 XML Entity Expansion,但是它主要试图通过消耗目标程序的服务器环境来进行DOS攻击的.这种攻击基于XML E ...
使用tornado让你的请求异步非阻塞
http://www.dongwm.com/archives/shi-yong-tornadorang-ni-de-qing-qiu-yi-bu-fei-zu-sai/?utm_source=tuic ...
Chpater 10: Sorting
Internal Sort: Bubble O(n2) Selection O(n2) Insertion O(n2) Shell O(nlogn) Merge O(nlogn) Heap O(nl ...
POJ 1459 Power Network(网络最大流，dinic算法模板题)
题意:给出n,np,nc,m,n为节点数,np为发电站数,nc为用电厂数,m为边的个数. 接下来给出m个数据(u,v)z,表示w(u,v)允许传输的最大电力为z:np个数据(u)z,表示发电 ...

Hadoop1.x与Hadoop2的区别