Herriot

Herriot测试框架是Hadoop-0.21.0及以后版本中新加入的测试框架，它的出现主要是为了尽可能地模拟真实的大规模分布式系统，并且对该系统实现自动化测试。和Hadoop以前的测试框架MiniDFSCluster类似，Herriot也采用了JUnit框架，此外，Herriot还引入了面向切面编程(AOP)技术-AspectJ，实现了代码注入和错误注入，丰富了测试的内容。

上图是采用Herriot框架对Hadoop集群进行测试的典型场景，可以看到：与早期的MiniDFSCluster测试框架不同，Herriot框架中每个节点（NameNode、JobTracker、DataNode和TaskTracker）都在一个单独的JVM进程中，这与真实的Hadoop集群是一致的；测试机通过本地的Herriot包来远程调用注入在目标节点内的Herriot代码。

为了测试Java系统，我们需要将一些与测试有关的代码注入到被测试的Java系统中，通常有三种方式：一、直接在代码中加入测试的代码，然后编译成class字节码，这种方式比较简单，但是测试代码污染了原有代码，并且会埋下安全隐患；二、代码编译为class字节码以后，通过修改class字节码的方式来添加测试方法，即生成新的class文件（通常叫做instrumented class），这种实现比第一种方式复杂一些，但是不污染原有代码，但用于测试的字节码和原有代码生成的class字节码不是同一份；三、通过修改JVM来添加测试功能，这种方式最复杂，但是不会影响代码和字节码。Herriot用到的AOP技术属于第二种，即通过修改字节码的方式实现测试功能的注入。

在Hadoop-0.21.0的目录结构中，common、hdfs和mapred作为独立的工程存在，因此与Herriot有关的代码也分别在不同的工程中，其中common工程里的是通用的一些代码，hdfs工程中实现了对HDFS集群的测试，mapred工程中实现了对MapReduce集群的测试。在这三个工程中，Herriot的目录结构基本类似：src/test/system/[aop|java|test]，其中，aop和java目录是和Herriot框架本身有关的，test目录是用于存放Herriot的测试用例的。下面，以Herriot在common和hdfs工程为例，我们来分析一下Herriot相关的代码。

common工程中src/test/system/java中有两个包：org.apache.hadoop.test.system和org.apache.hadoop.test.system.process，这两个包中的java代码是整个Herriot框架的基础，其中有下面几个类/接口：

DaemonProtocol接口：该接口继承了VersionedProtocol接口，其实是声明了Herriot客户端和Herriot注入代码之间的RPC通信协议。在这接口中，声明了多种方法，支持客户端操作被注入的Hadoop节点，以及获得该节点的信息。

ProcessInfo接口：该接口继承自Writable接口，声明了被注入Hadoop节点所属的远程JVM进程信息，比如环境变量，内存大小和当前时间等。该接口被DaemonProtocol中的某些方法作为返回结果使用，实则是封装了与远程JVM进程相关的信息。

ProcessInfoImpl类：该类是ProcessInfo接口的一个具体实现。

ControlAction类：该类是一个抽象类，实现了Writable接口，它实则是对Herriot客户端对被注入Hadoop节点的所作操作的封装。该类是DaemonProtocol中几个方法的参数或返回值。

RemoteProcess接口：该接口声明了对单个远程进程的操作，包括获得主机名，启停操作以及获得该进程的角色。在Hadoop中，进程的角色被划分为：NN，DN，JT和TT，不过这些并不在common工程中定义的，而是分别在hdfs和mapred工程中定义的。

ClusterProcessManager接口：该接口声明了对整个集群中进程的管理操作，比如获得所有RemoteProcess表述的远程进程以及它们的角色，启停集群中的所有进程，更新配置信息，是否支持多用户操作等。

HadoopDaemonRemoteCluster类：该类是一个抽象类，它实现了ClusterProcessManager接口。此外，还完成了以几个事情：1. 定义了与测试依赖的环境变量，例如HADOOP HOME和HADOOP CONF DIR等键值；2. 定义了Set<Enum<?>>类型的成员变量roles来维护集群中成员的角色；3. 给出了RemoteProcess的一个具体实现内部类ScriptDaemon，它通过SSH方式远程登录到目标机器上实现RemoteProcess声明的操作；同时HadoopDaemonRemoteCluster类还维护了一个RemoteProcess类型的列表，表示集群中所有的远程进程；4.
定义了HadoopDaemonInfo内部类，代表一种类型的Hadoop节点的信息，包括：名字（如namenode, datanode等），角色和主机名列表；同时，HadoopDaemonRemoteCluster类还维护了一个List<HadoopDaemonInfo>类型的成员变量。

MultiUserHadoopDaemonRemoteCluster类，该类是一个抽象类，他继承自HadoopDaemonRemoteCluster，它的内部类MultiUserScriptDaemon继承自ScriptDaemon，支持多用户对同一集群的操作。

AbstractDaemonClient类：该类是一个抽象类，它通过代理模式封装了DaemonProtocol的子类接口（采用泛型<PROXY extendsDaemonProtocol>）和RemoteProcess接口（作为AbstractDaemonClient的一个成员变量），对它的调用基本会转化为对DaemonProtocol/RemoteProcess的调用。一个AbstractDaemonClient子类的对象对应于管理一个Hadoop节点的客户端。

AbstractDaemonCluster类：该类是一个抽象类，它是Herriot框架下集群的抽象。它拥有两个重要的成员变量：1. ClusterProcessManager类型的clusterManager，维护了该集群中所有远程进程的管理操作；2.Map<Enum<?>,List<AbstractDaemonClient>>类型的daemons变量，维护了不同角色下所有客户端的列表。

common工程中src/test/system/aop中只有一个文件：DaemonProtocolAspect.aj。该文件就是DaemonProtocol接口的一个具体实现，不过该实现是以AOP方式注入到Hadoop节点的字节码中，所以不是java文件，而是aj（aspectJ）文件。与AOP相关的目录还有src/test/aop，它主要实现了生成注入后的字节码，与Herriot框架本身没有太大关系，所以不做过多讨论。

有了前面的分析，hdfs工程中的Herriot代码就不难理解了。hdfs工程的Herriot相关java代码仍放在src/test/system/java中，里面只有一个包org.apache.Hadoop.hdfs.test.system，所有文件如下：

NNProtocol接口，继承自DaemonProtocol，里面并没有新增方法。

DNProtocol接口，继承自DameonProtocol，里面并没有新增方法。

HDFSDaemonClient抽象类，它继承了AbstractDaemonClient，新增了获得namenode目录（dfs.name.dir）和datanode目录（dfs.data.dir）的方法.

NNClient类，继承了HDFSDaemonClient<NNProtocol>，提供了connect和disconnect方法用于连接/断开Namenode的IPC端口。

DNClient类，继承了HDFSDaemonClient<DNProtocol>，提供了connect和disconnect方法用于连接/断开Datanode的IPC端口。

HDFSCluster类，继承了AbstractDaemonCluster抽象类，它真正实现了在Herriot框架下对HDFS集群的模拟。该类里面定义了HDFS节点的角色:NN和DN，并且根据不同的角色创建不同的Client类。另外，它还定义了两个类：HDFSProcessManager和MultiUserHDFSProcessManager，分别继承自HadoopDaemonRemoteCluster和MultiUserHadoopDaemonRemoteCluster。在启动HDFSCluster过程中，需要读到hdfs-site.xml和system-test.xml文件，在system-test.xml中根据配置test.system.hdfs.clusterprocess.impl.class指定的类来选择HDFSProcessManager或MultiUserHDFSProcessManager来创建cluster
process manager。

在src/test/system/aop目录下，由NNProtocol的具体实现NameNodeAspect.aj和DNProtocol的具体实现DataNodeAspect.aj，都是通过AOP方式来修改相应类的字节码。

根据上述分析，我们可以得出下面一个类的关系图：

总结一下，Herriot测试框架是通过“内部”和“外部”两种方式实现对分布式系统进行管理的，所谓“内部”就是通过AOP技术将测试所需的管理功能注入到节点中，管理的协议是通过DaemonProtocol接口以及它的扩展类来声明和定义的；而“外部”就是通过类似SSH方式远程登录到目标机器上，对远程进程进行操作，管理的协议是通过RemoteProcess接口以及它的扩展类来声明和定义的。一般而言，Herriot测试框架中抽象出来的集群HDFSCluster需要从配置文件中读取相应的信息，通过“外部”的方式启动真实HDFS集群中的节点，然后通过“内部”的方式获取更丰富的信息和操作，最后以“外部”的方式停止掉HDFS集群。

我们来演示一下如何利用Herriot框架来跑一个测试用例。Herriot框架完全可以用于真实的HDFS分布式集群，但是为了方便起见，这个例子采用了HDFS的伪分布式集群，即在同一台机器上创建了一个namenode进程和一个datanode进程，并且在该机器上运行Herriot自带的测试用例TestHL040（hdfs工程的src/test/system/test目录下）。

1. 从Hadoop社区上下载hadoop-0.21.0.tar.gz，解压到Linux机器上，如/opt/hadoop/hadoop-0.21.0。

2. 进入到/opt/Hadoop/hadoop-0.21.0/hdfs目录下，创建lib目录的符号链接：

ln –s ../lib lib

3. 修改文件：/opt/Hadoop/hadoop-0.21.0/hdfs/ivy/libraries.properties：

Hadoop-common.version=0.21.0-SNAPSHOT
Hadoop-hdfs.version=0.21.0-SNAPSHOT

4. 修改文件：/opt/Hadoop/hadoop-0.21.0/hdfs/build.xml：

file="${system-test-build-dir}/ivy/lib/${ant.project.name}/system/Hadoop-common-${herriot.suffix}-${hadoop-common.version}.jar"

5. 在/opt/Hadoop/hadoop-0.21.0/hdfs/目录下运行，运行成功后会生成build-fi目录：

ant binary-system

6. 设置环境变量$JAVA_HOME，并保证其生效：

echo “export JAVA_HOME=/etc/alternatives/java_sdk” >> ~/.bashrc

7. 设置环境变量$Hadoop_HOME，并保证其生效：

exportHadoop_HOME=/opt/hadoop/hadoop-0.21.0/hdfs/build-fi/system/hadoop-hdfs-0.21.1-SNAPSHOT

8. 设置环境变量$Hadoop_CONF_DIR，并保证其生效：

exportHadoop_CONF_DIR=/opt/hadoop/hadoop-0.21.0/hdfs/build/test/conf

9. 在$Hadoop_CONF_DIR中放置文件：hdfs-site.xml，为了实现伪分布式集群，hdfs-site.xml需要如下配置：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9981</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.datanode.ipc.address</name>
<value>0.0.0.0:9982</value>
</property>
</configuration>

10. 在$Hadoop_CONF_DIR中放置文件：masters（留空）

11. 在$Hadoop_CONF_DIR中放置文件：slaves，并执行如下命令：

echo “localhost” > slaves
cp slaves slaves.copy

12. 在$Hadoop_CONF_DIR中放置文件：system-test.xml，配置如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>test.system.hdrc.Hadoophome</name>
<value>/opt/Hadoop/hadoop-0.21.0/hdfs/build-fi/system/hadoop-hdfs-0.21.1-SNAPSHOT</value>
<description> This is the path to the home directory of the Hadoop deployment.
</description>
</property>
<property>
<name>test.system.hdrc.Hadoopconfdir</name>
<value>/opt/Hadoop/hadoop-0.21.0/hdfs/build/test/conf</value>
<description> This is the path to the configuration directory of the Hadoop
cluster that is deployed.
</description>
</property>
<property>
<name>test.system.hdrc.dn.hostfile</name>
<value>slaves.copy</value>
<description> File name containing the hostnames where the DataNodes are running.
</description>
</property>
<property>
<name>test.system.hdfs.clusterprocess.impl.class</name>
<value>org.apache.Hadoop.hdfs.test.system.HDFSCluster$HDFSProcessManager</value>
<description>
Cluster process manager for the Hdfs subsystem of the cluster. The value
org.apache.Hadoop.hdfs.test.system.HDFSCluster$MultiUserHDFSProcessManager can
be used to enable multi user support.
</description>
</property>
<property>
<name>test.system.hdrc.deployed.scripts.dir</name>
<value>./src/test/system/scripts</value>
<description>
This directory hosts the scripts in the deployed location where
the system test client runs.
</description>
</property>
<property>
<name>test.system.hdrc.Hadoopnewconfdir</name>
<value>/opt/Hadoop/hadoop-0.21.0/hdfs/build/test/newconf</value>
<description>
The directory where the new config files will be copied to in all
the clusters is pointed out this directory.
</description>
</property>
<property>
<name>test.system.hdrc.suspend.cmd</name>
<value>kill -SIGSTOP</value>
<description>
Command for suspending the given process.
</description>
</property>
<property>
<name>test.system.hdrc.resume.cmd</name>
<value>kill -SIGCONT</value>
<description>
Command for resuming the given suspended process.
</description>
</property>
</configuration>

13. 进入$Hadoop_HOME目录，执行启动HDFS伪分布式集群：

chmod +x bin/*
./bin/start-dfs.sh

14. 回到/opt/Hadoop/hadoop-0.21.0/hdfs目录，执行测试用例：

ant test-system –Dhaoop.conf.dir.deployed=$Hadoop_CONF_DIR

Herriot的更多相关文章

Android RecyclerView 的简单使用
Android L SDK发布的,新API中最有意思的就是RecyclerView (后面为RV) 和 CardView了, 按照官方的说法, RV 是一个ListView 的一个更高级更灵活的一个版 ...
{ICIP2014}{收录论文列表}
This article come from HEREARS-L1: Learning Tuesday 10:30–12:30; Oral Session; Room: Leonard de Vinc ...
Android TV listView焦点平滑移动
先上TV上效果图 Mark下思路: package com.test.ui; import java.lang.reflect.Method; import android.annotation.Su ...
hadoop 测试框架
hadoop 0.21以前的版本中(这里拿0.20为例,其他版本可能有少许不同),所有的测试相关代码都是放置在${HADOOP_HOME}/src/test下,在该目录下,是按照不同的目录来区分针对不 ...

随机推荐

Linux文件上传工具下载工具及详细使用说明
对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多Linux系统初始并没有这两个命令.今天,我们 ...
关于activitygroup过时，用frament替换操作
现在Fragment的应用真的是越来越广泛了,之前Android在3.0版本加入Fragment的时候,主要是为了解决Android Pad屏幕比较大,空间不能充分利用的问题,但现在即使只是在手机上, ...
【移动开发】自定义ProgressBar
<ProgressBar android:layout_centerInParent="true" android:layout_width="30dp" ...
一步步创建Qt Widget项目+TextFinder案例（摘自笔者2015年将出的《QT5权威指南》，本文为试读篇）
创建一个基于应用的QtWidget应用程序这个手册描述了怎样使用QtCreater创建个一个小的Qt应用程序,Text Finder.它是Qt工具Text Finder例子的简写版本.这个应用 ...
android 特卖列表倒计时卡顿问题
在Android的开发中,我们经常遇见倒计时的操作,通常使用Timer和Handler共同操作来完成.当然也可以使用Android系统控件CountDownTimer,这里我们封装成一个控件,也方便大 ...
App引导界面,可以这么玩
什么是ViewPager,刚一听到这个词,我们可能感觉很奇怪,但是我相信我们大部分人都曾见到过这些界面的.其实它就是我们在安装好一个app之后第一次使用时的那些引导界面的效果.这就是通过ViewPag ...
06 intent flag三种属性
flag属性可以看做和写在清单文件中的启动模式一样但效果有一定差别 1,FLAG_ACTIVITY_SINGLE_TOP:启动模式里的SingleTop一致如果X启动模式设置为FLAG_ACTI ...
ubuntu14.04使用root用户登录桌面
ubuntu安装好之后,默认是不能用root用户登录桌面的,只能使用普通用户或者访客登录.怎样开启root用户登录桌面呢? 先用普通用户登录,然后切换到root用户,然后执行如下命令: vi /usr ...
从Eclipse插件中读取资源
可以通过Eclipse里的OSGi的Bundle类,获取插件目录下的某个文件的输入流: 1. Bundle bundle = Platform.getBundle(Activator.PLUGIN_I ...
CentOS下Mariadb表名大小写的问题
今天在linux上跑一个系统发现数据库报错,说找不到表问题是,我已经建立了表呀. 我把报错的那个表复制到命令行运行一下. 发现是大小写的问题. 那问题就简单了. 网上百度可以知道打开/etc ...

Herriot

Herriot的更多相关文章

随机推荐

热门专题