1.概述

　　在《高可用Hadoop平台－Oozie工作流》一篇中，给大家分享了如何去单一的集成Oozie这样一个插件。今天为大家介绍如何去使用Oozie创建相关工作流运行与Hadoop上，已经在创建过程当中需要注意的事项，下面是今天的分享目录：

Oozie简介
任务工作流
截图预览

　　下面开始今天的内容分享。

2.Oozie简介

　　在Oozie中有几个重要的概念，他们分别是：

WorkFlow：工作流，控制工作流的开始和结束过程，以及工作流Job的执行路径，并提供一种机制来控制工作流执行路径（比如：Decision、Fork以及Join节点等），其书写方式如下所示：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

  ...

  省略详细内容

  ...

</workflow-app>

Coordinator：多个WorkFlow可以组成一个Coordinator，可以把前几个WorkFlow的输出作为后一个WorkFlow的输入，当然也可以定义WorkFlow的触发条件，来做定时触发，其书写方式如下所示：

<coordinator-app name="[CD-DEF-NAME]" frequency="${coord:minutes(10)}" start="${start}" end="${end}" timezone="GMT+0800"

                 xmlns="uri:oozie:coordinator:0.1">

        <action>

        <workflow>

            <app-path>${workflowAppUri}</app-path>

            <configuration>

                <property>

                    <name>jobTracker</name>

                    <value>${jobTracker}</value>

                </property>

                <property>

                    <name>nameNode</name>

                    <value>${nameNode}</value>

                </property>

                <property>

                    <name>queueName</name>

                    <value>${queueName}</value>

                </property>

            </configuration>

        </workflow>

    </action>

    <action>

        <workflow>

          ...

        </workflow>

      </action>

</coordinator-app>

Bundle：控制一个或多个Coordinator应用，其写法如下所示：

 <bundle-app name=[NAME]  xmlns='uri:oozie:bundle:0.1'>

  <controls>

       <kick-off-time>[DATETIME]</kick-off-time>

  </controls>

   <coordinator name=[NAME] >

       <app-path>[COORD-APPLICATION-PATH]</app-path>

          <configuration>

            <property>

              <name>[PROPERTY-NAME]</name>

              <value>[PROPERTY-VALUE]</value>

            </property>

            ...

         </configuration>

   </coordinator>

   ...

</bundle-app>

3.任务工作流

　　下面，我们在Hadoop平台下去创建这样一个工作流，首先，我们需要配置Hadoop的core-site.xml文件，在该文件中添加以下内容：

core-site.xml

        <!-- OOZIE -->

        <property>

                <name>hadoop.proxyuser.hadoop.hosts</name>

                <value>*</value>

        </property>

        <property>

                <name>hadoop.proxyuser.hadoop.groups</name>

                <value>*</value>

        </property>

　　然后，在去修改Oozie的oozie-site.xml文件，在该文件中添加如下内容如下：

oozie-site.xml

<property>

         <name>oozie.services</name>

         <value>

          org.apache.oozie.service.SchedulerService,

          org.apache.oozie.service.InstrumentationService,

          org.apache.oozie.service.MemoryLocksService,

          org.apache.oozie.service.UUIDService,

          org.apache.oozie.service.ELService,

          org.apache.oozie.service.AuthorizationService,

          org.apache.oozie.service.UserGroupInformationService,

          org.apache.oozie.service.HadoopAccessorService,

          org.apache.oozie.service.JobsConcurrencyService,

          org.apache.oozie.service.URIHandlerService,

          org.apache.oozie.service.DagXLogInfoService,

          org.apache.oozie.service.SchemaService,

          org.apache.oozie.service.LiteWorkflowAppService,

          org.apache.oozie.service.JPAService,

          org.apache.oozie.service.StoreService,

          org.apache.oozie.service.SLAStoreService,

          org.apache.oozie.service.DBLiteWorkflowStoreService,

          org.apache.oozie.service.CallbackService,

          org.apache.oozie.service.ActionService,

          org.apache.oozie.service.ShareLibService,

          org.apache.oozie.service.CallableQueueService,

          org.apache.oozie.service.ActionCheckerService,

          org.apache.oozie.service.RecoveryService,

          org.apache.oozie.service.PurgeService,

          org.apache.oozie.service.CoordinatorEngineService,

          org.apache.oozie.service.BundleEngineService,

          org.apache.oozie.service.DagEngineService,

          org.apache.oozie.service.CoordMaterializeTriggerService,

          org.apache.oozie.service.StatusTransitService,

          org.apache.oozie.service.PauseTransitService,

          org.apache.oozie.service.GroupsService,

          org.apache.oozie.service.ProxyUserService,

          org.apache.oozie.service.XLogStreamingService,

          org.apache.oozie.service.JvmPauseMonitorService

     </value>

  </property>

  <property>

         <name>oozie.service.HadoopAccessorService.hadoop.configurations</name>

         <value>*=/home/hadoop/hadoop-2.6.0/etc/hadoop</value>

  </property>

　　在修改完相关文件后，下面我们去创建Oozie的sharelib，其命令如下所示：

oozie-setup.sh sharelib create -fs hdfs://cluster1

　　然后使用shareliblist命令查看相关内容，命令如下所示：

oozie admin -shareliblist -oozie http://nna:11000/oozie

　　若成功创建，会生成如下图所示内容：

　　若未出现相应内容，请检查相关信息是否配置正确即可。

启动Oozie服务

oozied.sh start

　　注：在启动时，这里建议打开oozie的启动日志，动态观察相关日志信息，也许会出现一些异常信息，比如：

Caused by: java.lang.NoClassDefFoundError: org/htrace/Trace

    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:)

    Caused by: java.lang.NoClassDefFoundError: com/google/protobuf/ServiceException

    at org.apache.hadoop.ipc.ProtobufRpcEngine.<clinit>(ProtobufRpcEngine.jav

　　这些异常信息大多是由于我们在前面打包生成war包时，由于缺少相关的依赖JAR包导致的，这里我们将缺少的JAR从Hadoop的share目录下找到对应的JAR拷贝到Oozie运行war包容器下即可，如：

$OOZIE_HOME/oozie-server/webapps/oozie/WEB-INF/lib

　　这里，异常都有相应的提示，大家耐心的按照提示解决异常即可，在解决相关异常后，我们就可以去创建相关工作流。

　　Oozie给我们提供了相关示例让我去参考配置，下面我们将examples/apps下的文件上传到HDFS当中去，这里我上传在HDFS的/oozie目录下。接下来，我给大家去演示一个定时任务。首先，我们进去到apps目录下的cron目录，这是一个定时任务的示例，其中包含：coordinator.xml、job.properties和workflow.xml三个文件，这里我们对其进行配置。

coordinator.xml

<coordinator-app name="cron-coord" frequency="${coord:minutes(10)}" start="${start}" end="${end}" timezone="GMT+0800"

                 xmlns="uri:oozie:coordinator:0.2">

        <action>

        <workflow>

            <app-path>${workflowAppUri}</app-path>

            <configuration>

                <property>

                    <name>jobTracker</name>

                    <value>${jobTracker}</value>

                </property>

                <property>

                    <name>nameNode</name>

                    <value>${nameNode}</value>

                </property>

                <property>

                    <name>queueName</name>

                    <value>${queueName}</value>

                </property>

            </configuration>

        </workflow>

    </action>

</coordinator-app>

　　这里配置的频率为10分钟，该属性可配置其它频率（如：小时，天等）。

job.properties

nameNode=hdfs://cluster1

jobTracker=nna:

queueName=default

examplesRoot=examples

oozie.coord.application.path=${nameNode}/oozie/${examplesRoot}/apps/cron

start=--25T13:+

end=--26T01:+

workflowAppUri=${nameNode}/oozie/${examplesRoot}/apps/cron

　　这里由于使用Hadoop2.x的HA特性，在指定NameNode时，直接使用hdfs://cluster1，在Hadoop2.x后，jobTracker被替换了，这里将其地址指向resourcemanager.address的地址。

workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.2" name="one-op-wf">

    <start to="end"/>

    <end name="end"/>

</workflow-app>

　　工作流使用一个空的Job。

　　在配置完相关文件后，我们将workflow.xml和coordinator.xml上传到指定的HDFS地址（之前上传examples目录下的corn目录下，上传之前先删除存在的文件），最后，我们启动这样一个工作流，命令如下所示：

$OOZIE_HOME/bin/oozie job -oozie http://nna:11000/oozie -config job.properties -run

　　创建成功后，会生成一个JobID，如下图所示：

　　注：图中我将命令封装在Shell脚本当中。这里在创建工作流时，同样建议动态开启Oozie的运行日志，便于查看异常信息。

　　若是需要Kill任务，可以使用以下命令：

$OOZIE_HOME/bin/oozie job -oozie http://nna:11000/oozie -kill [JOB_ID]

　　其Job DAG如下图所示：

4.截图预览

　　在提交作业后，我们可以通过浏览Oozie的Web监控界面观察相关信息，如下图所示：

5.总结

　　在将Oozie集成到Hadoop平台时，会有点繁琐，出现的异常都会在日志中有详细的记录，我们可以根据这些记录去解决出现的异常。另外，我们在提交任务成功后，在Oozie执行期间若是出现异常，我们也可以通过Oozie的监控界面去非常方便的查看对应的异常信息，并排除。异常信息较多，需要我们耐心的阅读相关记录信息。

6.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

高可用Hadoop平台－Oozie工作流之Hadoop调度的更多相关文章

Hadoop生态圈-Oozie实战之逻辑调度执行多个Job
Hadoop生态圈-Oozie实战之逻辑调度执行多个Job 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.启动hadoop集群 [root@yinzhengjie ha ...
看我如何快速学习.Net（高可用数据采集平台）
最近文章:高可用数据采集平台(如何玩转3门语言php+.net+aauto).高并发数据采集的架构应用(Redis的应用) 项目文档:关键词匹配项目深入研究(二)- 分表思想的引入吐槽:本人也是非常 ...
高可用Hadoop平台－Hue In Hadoop
1.概述前面一篇博客<高可用Hadoop平台-Ganglia安装部署>,为大家介绍了Ganglia在Hadoop中的集成,今天为大家介绍另一款工具——Hue,该工具功能比较丰富,下面是今 ...
高可用数据采集平台（如何玩转3门语言php+.net+aauto）
同类文章:高并发数据采集的架构应用(Redis的应用) 吐槽下:本人主程是PHP,团队里面也没有精通.net的人才,为了解决这个平台方案,还是费了一部分劲. 新年了,希望有个新的开始.技术+团队管理都 ...
高可用Hadoop平台－HBase集群搭建
1.概述今天补充一篇HBase集群的搭建,这个是高可用系列遗漏的一篇博客,今天抽时间补上,今天给大家介绍的主要内容目录如下所示: 基础软件的准备 HBase介绍 HBase集群搭建单点问题验证截 ...
六十一.常用组件、 Kafka集群、 Hadoop高可用
1.Zookeeper安装搭建Zookeeper集群并查看各服务器的角色停止Leader并查看各服务器的角色 1.1 安装Zookeeper1)编辑/etc/hosts ,所有集群主机可以相互 pin ...
Hadoop高可用
一.原因 - NameNode是HDFS的黑心配置HDFS有事hadoop的核心组件 NameNode 在Hadoop及群众至关重要 - NameNode的宕机导致集群的不可用二.解决方案其中 N ...
Hadoop HA(高可用) 详细安装步骤
什么是HA? HA是High Availability的简写,即高可用,指当当前工作中的机器宕机后,会自动处理这个异常,并将工作无缝地转移到其他备用机器上去,以来保证服务的高可用.(简言之,有两台机器 ...
Java生鲜电商平台-高可用微服务系统如何设计？
Java生鲜电商平台-高可用微服务系统如何设计? 说明:Java生鲜电商平台高可用架构往往有以下的要求: 高可用.这类的系统往往需要保持一定的 SLA,7*24 时不间断运行不代表完全不挂,而是有一定 ...

随机推荐

POJ 1741.Tree 树分治树形dp 树上点对
Tree Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 24258 Accepted: 8062 Description ...
win7 home 提升 admin, pip
以管理员权限运行cmd cmd 右击‘以管理员身份运行’ 输入net user administrator /active:yes 取消为 net user administrator /acti ...
Alpha项目冲刺
一.团队成员学号姓名 211606361 何承华(队长) 211606356 陈宇 211606360 丁培辉 211606333 温志铭 211606343 杨宇潇 211606391 张主强 ...
Codeforces 1082B Vova and Trophies 模拟,水题,坑 B
Codeforces 1082B Vova and Trophies https://vjudge.net/problem/CodeForces-1082B 题目: Vova has won nn t ...
Nginx Redirect Websocket
I want to redirect my websocket to another server. As we known, nginx command rewrite or redirect ca ...
Nginx+Tomcat反向代理利用certbot实现https
一.利用Let's Encrypt 免费生成HTTPS证书 1.下载安装certbot(Let's Encrypt ) 2.利用certbot生成证书 3.配置nginx的https证书安装cerb ...
MySQL slow_log日志表出现非法字段值
背景从mysql.slow_log 获取慢查询日志很慢,该表是csv表,没有索引. 想添加索引来加速访问,而csv引擎不能添加索引(csv引擎存储是以逗号分割的文本来存储的),只能改存储引擎来添加索 ...
OC学习1——基本数据类型
1.OC是在C语言的基础上进行扩展的一种面向对象的编程语言.很多基础知识都和C语言中的非常类似.首先介绍一下OC中的基本数据类型,整体框架如下图: 2.自动数据类型转换顺序:short --> ...
一站式SpringBoot for NoSQL Study Tutorial 开发教程学习手册
SpringBoot2.0 + NoSQL使用教程,项目名称:“SpringBoot2NoSQL” 项目地址: https://gitee.com/475660/SpringBoot2NoSQL 项目 ...
Liferay7 BPM门户开发之8: Activiti实用问题集合
1.如何实现审核的上级获取(任务逐级审批) 这个是必备功能,通过Spring的注入+Activiti表达式可以很容易解决. 可参考: http://blog.csdn.net/sunxing007/a ...

高可用Hadoop平台－Oozie工作流之Hadoop调度