Oozie笔记

简介

Oozie 是用于 Hadoop 平台的开源的工作流调度引擎。
用于管理 Hadoop
属于web应用程序, 由 Oozie client 和 Oozie Server 两个组件构成。
Oozie Server 运行于 Java Servlet容器 (Tomcat) 中的 web 程序。

作用

统一调度hadoop系统中场景的MR任务启动、hdfs操作、shell调度、hive操作等
使得复杂的依赖关系、时间触发、事件触发使用xml语言进行表达, 开发效率提高
一组任务使用一个DAG来表示, 使用图形表达流程逻辑更加清晰
支持很多种任务调度, 能完成大部分 hadoop 任务处理
程序定义支持 EL 常量和函数, 表达更加丰富

Oozie 架构

安装方式

手动安装
Cloudera Manger 添加服务

Oozie Web控制台

解压ext-x.x到/var/lib/oozie目录下 unzip ext-x.x.zip -d /var/lib/oozie/
Oozie服务中配置启用web控制台
保存，重启oozie服务

Oozie 配置

节点内存配置
oozie.service.callablequeueservice.callable.concurrency（节点并发）
oozie.service.callablequeueservice.queue.size（队列大小）
oozie.service.ActionService.executor.ext.classes（扩展）

Oozie 共享库

/user/oozie/share/lib(hdfs中目录)

web管理地址

http://oozie_host_ip:11000/oozie/

Oozie 管理

任务列表查看
任务状态查看
流程返回信息
节点信息查看
流程图信息
日志查看
系统信息查看和配置

Oozie CLI 命令

启动任务
- oozie job -oozie http://ip:11000/oozie/ -config job.properties -run
停止任务
- oozie job -oozie http://ip:11000/oozie/ -kill 0000002-150713234209387-oozie-oozi-W
提交任务
- oozie job -oozie http://ip:11000/oozie/ -kill 0000002-150713234209387-oozie-oozi-W
开始任务
- oozie job -oozie http://ip:11000/oozie/ -config job.properties -start 0000003-150713234209387-oozie-oozi-W
查看任务执行情况
- oozie job -oozie http://ip:11000/oozie/ -config job.properties -info 0000003-150713234209387-oozie-oozi-W

Job 配置 job.properties

WorkFLow 配置

版本信息
- <workflow-app xmlns="uri:oozie:workflow:0.4" name=“workflow name">
EL函数
- 基本EL函数
  - String firstNotNull(String value1, String value2)
  - String concat(String s1, String s2)
  - String replaceAll(String src, String regex, String replacement)
  - String appendAll(String src, String append, String delimeter)
  - String trim(String s)
  - String urlEncode(String s)
  - String timestamp()
  - String toJsonStr(Map) (since Oozie 3.3)
  - String toPropertiesStr(Map) (since Oozie 3.3)
  - String toConfigurationStr(Map) (since Oozie 3.3)
- WorkFlow EL
  - String wf:id() – 返回当前workflow作业ID
  - String wf:name() – 返回当前workflow作业NAME
  - String wf:appPath() – 返回当前workflow的路径
  - String wf:conf(String name) – 获取当前workflow的完整配置信息
  - String wf:user() – 返回启动当前job的用户
  - String wf:callback(String stateVar) – 返回结点的回调URL，其中参数为动作指定的退出状态
  - int wf:run() – 返回workflow的运行编号，正常状态为0
  - Map wf:actionData(String node) – 返回当前节点完成时输出的信息
  - int wf:actionExternalStatus(String node) – 返回当前节点的状态
  - String wf:lastErrorNode() – 返回最后一个ERROR状态推出的节点名称
  - String wf:errorCode(String node) – 返回指定节点执行job的错误码，没有则返回空
  - String wf:errorMessage(String message) – 返回执行节点执行job的错误信息，没有则返回空
- HDFS EL
  - boolean fs:exists(String path)
  - boolean fs:isDir(String path)
  - long fs:dirSize(String path) – 目录则返回目录下所有文件字节数；否则返回-1
  - long fs:fileSize(String path) – 文件则返回文件字节数；否则返回-1\
  - long fs:blockSize(String path) – 文件则返回文件块的字节数；否则返回-1

节点

流程控制节点

start – 定义workflow开始
end – 定义workflow结束
decision – 实现switch功能
sub-workflow – 调用子workflow
kill – 杀死workflow
fork – 并发执行workflow
join – 并发执行结束（与fork一起使用）

<decision name="[NODE-NAME]">

    <switch>

        <case to="[NODE_NAME]">[PREDICATE]</case>

        ...

        <case to="[NODE_NAME]">[PREDICATE]</case>

        <default to="[NODE_NAME]" />

    </switch>

</decision>

动作节点

shell
java
fs
MR
hive

sqoop

<fork name="[FORK-NODE-NAME]">

    <path start="[NODE-NAME]" />

    ...

    <path start="[NODE-NAME]" />

</fork>

...

<join name="[JOIN-NODE-NAME]" to="[NODE-NAME]" />

Shell节点

job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=examples

oozie.wf.application.path=${nameNode}/user/workflow/oozie/shell

workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.3" name="shell-wf">

    <start to="shell-node"/>

    <action name="shell-node">

       <shell xmlns="uri:oozie:shell-action:0.1">

            <job-tracker>${jobTracker}</job-tracker>

            <name-node>${nameNode}</name-node>

            <configuration>

                <property>

                    <name>mapred.job.queue.name</name>

                    <value>${queueName}</value>

                </property>

            </configuration>

            <exec>echo</exec>

            <argument>hi shell in oozie</argument>

        </shell>

        <ok to="end"/>

        <error to="fail"/>

    </action>

    <kill name="fail">

        <message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

    </kill>

    <end name="end"/>

</workflow-app>

调用impala

job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=examples

oozie.usr.system.libpath=true

oozie.libpath=${namenode}/user/${user.name}/workflow/impala/lib

oozie.wf.application.path=${nameNode}/user/${user.name}/workflow/impala

workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="impala-wf">

    <start to="shell-node"/>

    <action name="shell-node">

        <shell xmlns="uri:oozie:shell-action:0.1">

            <job-tracker>${jobTracker}</job-tracker>

            <name-node>${nameNode}</name-node>

            <configuration>

                <property>

                    <name>mapred.job.queue.name</name>

                    <value>${queueName}</value>

                </property>

            </configuration>

            <exec>impala-shell</exec>

            <argument>-i</argument>

            <argument>node02</argument>

            <argument>-q</argument>

            <argument>invalidate metadata</argument>

            <capture-output/>

        </shell>

	......

    </action>

	.......

</workflow-app>

fs节点

workflow.xml

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.5">

    ...

    <action name="[NODE-NAME]">

        <fs>

            <delete path='[PATH]'/>

            <mkdir path='[PATH]'/>

            <move source='[SOURCE-PATH]' target='[TARGET-PATH]'/>

            <chmod path='[PATH]' permissions='[PERMISSIONS]' dir-files='false' />

            <touchz path='[PATH]' />

            <chgrp path='[PATH]' group='[GROUP]' dir-files='false' />

        </fs>

        <ok to="[NODE-NAME]"/>

        <error to="[NODE-NAME]"/>

    </action>

</workflow-app>

Java节点

job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=examples

oozie.usr.system.libpath=true

oozie.libpath=${nameNode}/user/workflow/lib/lib4java

oozie.wf.application.path=${nameNode}/user/workflow/oozie/java

workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.3" name="mr-wc-wf">

  <start to="mr-node"/>

  <action name="mr-node">

     <java>

          <job-tracker>${jobTracker}</job-tracker>

          <name-node>${nameNode}</name-node>

          <prepare>

              <delete path="${nameNode}/user/path" />

              <mkdir path="${nameNode}/user/path" />

          </prepare>

          <configuration>

              <property>

                  <name>mapred.job.queue.name</name>

                  <value>${queueName}</value>

              </property>

          </configuration>

          <main-class>com.pagename.classname</main-class>

          <arg>args1</arg>

		 <arg>args2</arg>

      </java>

      <ok to="end"/>

      <error to="fail"/>

  </action>

  <kill name="fail">

      <message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

  </kill>

  <end name="end"/>

</workflow-app>

Oozie笔记的更多相关文章

Hadoop Oozie 学习笔记
Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat. O ...
oozie学习笔记
#################################################################################################### ...
Hadoop学习笔记—18.Sqoop框架学习
一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加 ...
#数据技术选型#即席查询Shib+Presto，集群任务调度HUE+Oozie
郑昀创建于2014/10/30 最后更新于2014/10/31 一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标使用者是产品/运营/销售 ...
Hadoop概括——学习笔记<一>
之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X概述第一章的笔记第一章主要讲的是hadoop基础知识.老师讲的还是比较全面简单的,起码作为一个非专业码农以及数据 ...
sqoop笔记
adoop学习笔记—18.Sqoop框架学习一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数 ...
【Oozie】安装配置Oozie
安装和配置Oozie Oozie用于Hadoop的工作流配置: 参考链接: <Install and Configure Apache Oozie Workflow Scheduler for ...
Apache Flink学习笔记
Apache Flink学习笔记简介大数据的计算引擎分为4代第一代:Hadoop承载的MapReduce.它将计算分为两个阶段,分别为Map和Reduce.对于上层应用来说,就要想办法去拆分算法 ...
Hadoop自学笔记（一）常见Hadoop相关项目一览
本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述自学笔记,难免有各类错误 ...

随机推荐

SpringMVC：自定义视图及其执行过程
一:自定义视图 1.自定义一个实现View接口的类,添加@Component注解,将其放入SpringIOC容器 package com.zzj.view; import java.io.PrintW ...
B. Uniqueness 删除最小区间内的元素使得剩余元素唯一
B. Uniqueness time limit per test 2 seconds memory limit per test 256 megabytes input standard input ...
Android示例程序剖析之记事本（一）
Android SDK提供了很多示例程序,从这些示例代码的阅读和试验中能够学习到很多知识.本系列就是要剖析Android记事本示例程序,用意就是一步步跟着实例进行动手操作,在实践中体会和学习Andro ...
Numpy与List之间的转换
说明:在做NLP的时候,经常需要查看当前数组数据的维度,也就是data.shape,而List是没有这个属性的,因此需要先将其转换成Numpy,以下为两者户想转换的方法 List转Numpy:nump ...
COGS 2294. [HZOI 2015] 释迦
额,其实就是裸的三模数NTT,上一篇已经说过了哦,还有一个就是对乘起来炸long long的数取模,用long double之类的搞一下就好,精度什么的,,(看出题人心情??) #include&l ...
关于C/C++的各种优化
一.常量声明常量可以方便代码的修改,提高复用性. ; +; ; 同时,声明常量也可以减少重复运算,提高代码速度,例子如下: string s; cin>>s; ;i<len;i++ ...
「JSOI2008」Blue Mary的旅行
传送门 Luogu 解题思路分层图加网络流,有点像这题可以证明最多不超过100天,所以才可以分层,不然图的规模会很大. 首先连源点汇点: \((s,1,INF), (n, t, INF)\) 以时 ...
SVG格式文件
SVG可以算是目前最最火热的图像文件格式了,它的英文全称为Scalable Vector Graphics,意思为可缩放的矢量图形.它是基于XML(Extensible Markup Language ...
NPM概述及使用简介
什么是 NPM npm之于Node,就像pip之于Python,gem之于Ruby,composer之于PHP. npm是Node官方提供的包管理工具,他已经成了Node包的标准发布平台,用于Node ...
编程题目：输入一个链表，输出该链表中倒数第k个节点
两种方法 1.在链表的初始化数据中加入 num 数据, 每添加一个节点,num加1,每删除一个节点,num减1 查找倒数第k个元素,即指向第一个节点的指针向后移动 num - k 步. 2.使用两个 ...

Oozie笔记

简介

作用

Oozie 架构

安装方式

Oozie Web控制台

Oozie 配置

Oozie 共享库

web管理地址

Oozie 管理

Oozie CLI 命令

Job 配置 job.properties

Oozie笔记的更多相关文章

随机推荐

热门专题