1.概述

接着上一篇博客的内容，继续介绍Hadoop3的其他新特性。其内容包含：优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataNode内部添加负载均衡、重构后台程序和任务堆管理。

2.内容

2.2.1 优化Hadoop Shell脚本

Hadoop Shell脚本已经被重写，用来修复已知的BUG，解决兼容性问题和一些现有安装的更改。它还包含了一些新的特性，内容如下所示：

所有Hadoop Shell脚本子系统现在都会执行hadoop-env.sh这个脚本，它允许所有环节变量位于一个位置；
守护进程已通过*-daemon.sh选项从*-daemon.sh移动到了bin命令中，在Hadoop3中，我们可以简单的使用守护进程来启动、停止对应的Hadoop系统进程；
触发SSH连接操作现在可以在安装时使用PDSH；
${HADOOP_CONF_DIR}现在可以任意配置到任何地方；
脚本现在测试并报告守护进程启动时日志和进程ID的各种状态；

2.2.2 重构Hadoop Client Jar包

Hadoop2 中可用的Hadoop客户端将Hadoop的传递依赖性拉到Hadoop应用程序的类路径上。如果这些传递依赖项的版本与应用程序使用的版本发送冲突，这可能会产生问题。

因此，在Hadoop3中有新的Hadoop客户端API和Hadoop客户端运行时工件，它们将Hadoop的依赖性遮蔽到单个JAR中，Hadoop客户端API是编译范围，Hadoop客户端运行时是运行时范围，它包含从Hadoop客户端重新定位的第三方依赖关系。因此，你可以将依赖项绑定到JAR中，并测试整个JAR以解决版本冲突。这样避免了将Hadoop的依赖性泄露到应用程序的类路径上。例如，HBase可以用来与Hadoop集群进行数据交互，而不需要看到任何实现依赖。

2.2.3 支持等待容器和分布式调度

在Hadoop3 中引入了一种新型执行类型，即等待容器，即使在调度时集群没有可用的资源，它也可以在NodeManager中被调度执行。在这种情况下，这些容器将在NM中排队等待资源启动，等待荣容器比默认容器优先级低，因此，如果需要，可以抢占默认容器的空间，这样可以提供机器的利用率。如下图所示：

默认容器对于现有的YARN容器，它们由容量调度分配，一旦被调度到节点，就保证有可用的资源使它们执行立即开始。此外，只要没有故障发生，这些容器就可以允许完毕。

等待容器默认由中心RM分配，但还增加了支持以允许等待容器被分布式调度，该调度群被实现于AM和RM协议的拦截器。

2.2.4 MapReduce任务级别本地化优化

在Hadoop3中，本地的Java实现已加入MapReduce地图输出器，对于Shuffle密集的作业，这样可以提高30%或者更高的性能。

它们添加了映射输出收集器的本机实现，让MapTask基于JNI来本机优化。基本思想是添加一个NativeMapOutputCollector收集器来处理映射器发出的键值对，因此Sort、Spill、文件序列化都可以在本机代码中完成。

2.2.5 支持多个NameNode节点

在Hadoop2中，HDFS NameNode高可用体系结构有一个Active和Standby NameNode，通过JournalNodes，该体系结构能够容忍任何一个NameNode失败。

然而，业务关键部署需要更高程度的容错性。因此，在Hadoop3中允许用户运行多个备用的NameNode。例如，通过配置三个NameNode（1个Active NameNode和2个Standby NameNode）和5个JournalNodes节点，集群可以容忍2个NameNode节点故障。如下图所示：

2.2.6 默认的服务端口被修改

早些时候，多个Hadoop服务的默认端口位于Linux端口范围以内。除非客户端程序明确的请求特定的端口号，否则使用的端口号是临时的，因此，在启动时，服务有时会因为与其他另一个应用程序冲突而无法绑定到端口。

因此，具有临时范围冲突端口已经被移除该范围，影响多个服务的端口号，即NameNode、Secondary NameNode、DataNode等如下所示：

Daemon	App	Hadoop2 Port	Hadoop3 Port
NameNode Port	Hadoop HDFS NameNode	8020	9820
	Hadoop HDFS NameNode HTTP UI	50070	9870
	Hadoop HDFS NameNode HTTPS UI	50470	9871
Secondary NameNode Port	Secondary NameNode HTTP	50091	9869
	Secondary NameNode HTTP UI	50090	9868
DataNode Port	Hadoop HDFS DataNode IPC	50020	9867
	Hadoop HDFS DataNode	50010	9866
	Hadoop HDFS DataNode HTTP UI	50075	9864
	Hadoop HDFS DataNode HTTPS UI	50475	9865

2.2.6 支持文件系统连接器

Hadoop现在支持与微软 Azure数据和阿里云对象存储系统的集成。它可以作为一种替代Hadoop兼容的文件系统，首先添加微软Azure数据，然后添加阿里云对象存储系统。

2.2.7 DataNode内部负载均衡

单个数据节点配置多个数据磁盘，在正常写入操作期间，数据被均匀的划分，因此，磁盘被均匀填充。但是，在维护磁盘时，添加或者替换磁盘会导致DataNode节点存储出现偏移，这种情况在早期的HDFS文件系统中，是没有被处理的。如图下图所示，维护前和维护后不均衡的情况：

现在Hadoop3通过新的内部DataNode平衡功能来处理这种情况，这是通过hdfs diskbalancer CLI来进行调用的。执行之后，DataNode会进行均衡处理，如下图所示：

2.2.8 重构后台程序和任务堆管理

Hadoop守护进程和MapReduce任务的堆管理已经发生了一系列的变化。

配置守护进程堆大小的新方法：值得注意的是，现在可以根据主机的内存大小进行自动调整，并且已经禁止HADOOP_HEAPSIZE变量。在HADOOP\_HEAPSIZE\_MAX 和 HADOOP\_HEAPSIZE\_MIN位置上，分别设置XMX和XMS。所有全局和守护进程特定堆大小变量现在都支持单元。如果变量仅为一个数，它的大小为MB。
Map和Reduce的堆大小的配置被简化了，所以不再需要任务配置作为一个Java选项指定。已经指定的两个现有配置不受此更改的影响。

3.总结

Hadoop3的这些新特性还是很吸引人的，目前官方推出的稳定版本是2.9.0，发行版是3.1.0，感兴趣的同学可以下载Hadoop3去体验调研学习一下这些新特性。

4.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Hadoop 3.x 新特性剖析系列2的更多相关文章

Hadoop 3.x 新特性剖析系列1
1.概述目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0.那么,今天笔者就带着大 ...
Hadoop 3相对于hadoop 2的新特性
相对于之前主要生产发布版本Hadoop 2,Apache Hadoop 3整合许多重要的增强功能. Hadoop 3是一个可用版本,提供了稳定性和高质量的API,可以用于实际的产品开发.下面简要介绍一 ...
css3新特性学习系列 -- border
css3新特性 border属性(border-radius.border-image.box-shadow)详解 1.border-radius 圆角支持:IE9+ 用法: border-rad ...
Hadoop3.0新特性介绍，比Spark快10倍的Hadoop3.0新特性
Hadoop3.0新特性介绍,比Spark快10倍的Hadoop3.0新特性 Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+ ...
hadoop2.5发布：最新编译 32位、64位安装、源码包、API以及新特性
hadoop2.5发布:最新编译 32位.64位安装.源码包.API以及新特性 http://www.aboutyun.com/thread-8751-1-1.html (出处: about云开发) ...
java8新特性，使用流遍历集合
在这篇“Java 8新特性教程”系列文章中,我们会深入解释,并通过代码来展示,如何通过流来遍历集合,如何从集合和数组来创建流,以及怎么聚合流的值. 在之前的文章“遍历.过滤.处理集合及使用Lambda ...
ActiveReports 报表控件V12新特性 -- 无需ETL处理，即可实现跨数据源分析数据
ActiveReports是一款专注于 .NET 平台的报表控件,全面满足 HTML5 / WinForms / ASP.NET / ASP.NET MVC / WPF 等平台下报表设计和开发工作需求 ...
Java 8新特性之旅：使用Stream API处理集合
在这篇“Java 8新特性教程”系列文章中,我们会深入解释,并通过代码来展示,如何通过流来遍历集合,如何从集合和数组来创建流,以及怎么聚合流的值. 在之前的文章“遍历.过滤.处理集合及使用Lambda ...
【开源】OSharp3.3框架解说系列：重新开源及3.3版本新特性
OSharp是什么? OSharp是个快速开发框架,但不是一个大而全的包罗万象的框架,严格的说,OSharp中什么都没有实现.与其他大而全的框架最大的不同点,就是OSharp只做抽象封装,不做实现.依 ...

随机推荐

Java进阶(二十四)Java List集合add与set方法原理简介
Java List集合add与set方法原理简介 add方法 add方法用于向集合列表中添加对象. 语法1 用于在列表的尾部插入指定元素.如果List集合对象由于调用add方法而发生更改,则返回 tr ...
智能循迹避障小车&抢答器
智能循迹避障小车 →视频链接← 抢答器
Linux Shell 脚本攻略学习--四
linux中(chattr)创建不可修改文件的方法在常见的linux扩展文件系统中(如ext2.ext3.ext4等),可以将文件设置为不可修改(immutable).某些文件属性可帮助我们将文件设 ...
从驱动层分析android的Binder机制-android学习之旅（83）
前言及知识准备 Binder驱动程序 Service组件的注册和启动 Clinet应用获取服务本次主要介绍Android平台下Binder进程间机制.从机制的组成出发,将按照Binder驱动程序.B ...
报表打印错误：Forcing NLS_NUMERIC_CHARACTERS to: '.,' for XDO processing
HDSP0004 module: HDSP: 凭证打印 +----------------------------------------------------------------------- ...
【面试笔试算法】Problem 7: 补提交卡(hiho题库)
时间限制:2000ms 单点时限:1000ms 内存限制:256MB 描述小Ho给自己定了一个宏伟的目标:连续100天每天坚持在hihoCoder上提交一个程序.100天过去了,小Ho查看自己的提交 ...
dex分包方案
当一个app的功能越来越复杂,代码量越来越多,也许有一天便会突然遇到下列现象: 1. 生成的apk在2.3以前的机器无法安装,提示INSTALL_FAILED_DEXOPT 2. 方法数量过多,编译时 ...
uc伯克利人工分割图像.seg文件解析
之前看到 http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench/ 提供的人工图像分割的.seg格式 ...
Sharepoint 2010 自定义WebService 找不到网站应用程序
错误描述:Net 开发WebService调用Microsoft.SharePoint.dll的服务器端对象模型,出现找不到网站的应用程序,或者出现500错误. 错误截图: [Webservice调用 ...
unix下各种查看“变量”的命令比较
子程序只会继承父程序的环境变量,而不继承其自定义变量. env 查看所有环境变量 set 查看所有变量,包括环境变量和自定义变量 set 还可以给程序位置参数赋值: set 1 2 3 将1赋值给$1 ...

Hadoop 3.x 新特性剖析系列2