Apache Oozie Workflow Scheduler for Hadoop

Oozie is a workflow scheduler system to manage Apache Hadoop jobs.

Oozie 是一个工作流调度系统用来管理 Hadoop 任务

工作流调度:工作流程的编排,调度:安排事件的触发执行(时间触发,事件触发)

Oozie is integrated with the rest of the Hadoop stack supporting several types of Hadoop jobs out of the box (such as Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop and Distcp) as well as system specific jobs (such as Java programs and shell scripts).

Oozip 集成了 Hadoop 其他的几种协议(如 MapReduce Pig Hive Sqoop Distcp)和系统专有的任务(如 java程序 shell脚本)

底层是一个仅有 Map Task 的 MapReduce 程序

一、横向比较

1.Linux Crontab Linux自带的定时任务指令(写绝对路径)

特点:简单,结合 shell 脚本能实现大部分的功能

缺点:太简单了,没有监控界面

crontab: usage error: unrecognized option
usage: crontab [-u user] file 指向文件
crontab [ -u user ] [ -i ] { -e | -l | -r }
(default operation is replace, per 1003.2)
-e (edit user's crontab) 指定编辑器
-l (list user's crontab) 列表
-r (delete user's crontab) 删除
-i (prompt before deleting user's crontab) 删除前提示 minute hour day month week command
0-60 0-24 0-31 1-12 0-7( 0=7=周日 )
( * ):所有可能的值
( , ):并列
( - ):范围
( / ):频率 eg:
# 每周六晚上8点-12点每30分钟加早上10点执行一次
0-60/30 20-7,8 * * 6 /bin/ls

2.AzKaban Linkedin 公司一个开源的工作流管理程序

特点:简单得一塌糊涂,又漂亮的不像实力派

缺点:...



Azkaban

3.Oozie Apache 顶级项目

特点:Apache 出品,强大

缺点:存在 jar 包冲突,长得不是一般的丑(程序员就不该有审美)



Oozie

4.Zeus 宙斯 阿里开源的框架(找不到了,阿里遗弃了?)

特点:比较简单,阿里出品,有中文文档,中文界面

缺点:小众,毕竟国内

关于Oozie(拷贝模板改之)

1.Oozie是 Cloudeara 公司共享给 Apache 的一个开源顶级项目,提供对 Hadoop MapReduce Hive Pig 的任务的调度;Oozie需要部署到一个 Java Servlet 容器中(如:Tomcat)运行,需要使用关系型数据库存储调度信息

2.Oozie 工作流的定义,同 Jboss jBPM 提供的 jPDL 一样,提供了类似流程定义语言 hPDL ,通过 XML 格式实现流程定义。对于工作流系统,一般都会有很多不同的功能节点,如分支、并发、汇合等

3.Ooize 定义了**控制流节点 Control Flow Nodes 动作节点 Action Nodes **。其中控制流节点定义了流程的开始和结束,以及控制流程的执行路径( Execution Path ) ,如 decision / fork / join 等;而动作节点包括 Hadoop MapReduce / HDFS / Pig / SSH / HTTP / eMail / Oozie 子流程等。

关于各个版本的架构(重点)

Oozie v1 is a server based Workflow Engine 工作流引擎 specialized专门 in running workflow jobs with actions that execute Hadoop Map/Reduce and Pig jobs.

Oozie v2 is a server based Coordinator Engine 协调引擎 specialized in running workflows based on time and data triggers(时间触发 数据触发). It can continuously不断地 run workflows based on time (e.g. run it every hour), and data availability (e.g. wait for my input data to exist before running my workflow).

Oozie v3 is a server based Bundle Engine 绑定引擎 that provides a higher-level oozie abstraction抽象 that will batch批量 a set of coordinator applications. The user will be able to start/stop/suspend暂停/resume继续/rerun a set coordinator jobs in the bundle level(捆绑包层次) resulting a better and easy operational control.

v3提供了一个更高级别的抽象Oozie,将批处理一组协调应用程序。

整体服务框架

  • 左侧:Oozie 通过 Tomcat Http Server 对外提供了 JAVA API 、REST API 、CLI(终端) 、Web 接口(hue) ;产生的数据存储在 Oozie object dstabase 上
  • 中间:Oozie 的三层结构
  • 右侧:Oozie 的 Coordinator Engine 协调引擎 能够监控基于 Time-based triggers 和 HDFS 上的 Data-based triggers;每一个 Oozie Job 都是一个只有 Map Task 的 MapReduce 程序

Oozie是什么的更多相关文章

  1. Oozie分布式任务的工作流——Spark篇

    Spark是现在应用最广泛的分布式计算框架,oozie支持在它的调度中执行spark.在我的日常工作中,一部分工作就是基于oozie维护好每天的spark离线任务,合理的设计工作流并分配适合的参数对于 ...

  2. 大数据之Oozie——源码分析(一)程序入口

    工作中发现在oozie中使用sqoop与在shell中直接调度sqoop性能上有很大的差异.为了更深入的探索其中的缘由,开始了oozie的源码分析之路.今天第一天阅读源码,由于没有编译成功,不能运行测 ...

  3. Oozie分布式任务的工作流——邮件篇

    在大数据的当下,各种spark和hadoop的框架层出不穷.各种高端的计算框架,分布式任务如乱花般迷眼.你是否有这种困惑!--有了许多的分布式任务,但是每天需要固定时间跑任务,自己写个调度,既不稳定, ...

  4. Oozie 快速入门

    设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执 ...

  5. Oozie分布式任务的工作流——脚本篇

    继前一篇大体上翻译了Email的Action配置,本篇继续看一下Shell的相关配置. Shell Action Shell Action可以执行Shell脚本命令,工作流会等到shell完全执行完毕 ...

  6. Oozie调度报错——ORA-00918:未明确定义列

    Oozie在执行sqoop的时候报错,同样的SQL在sqoop中可用,在oozie中不可用: Caused by: java.sql.SQLSyntaxErrorException: ORA-0091 ...

  7. Oozie分布式任务的工作流——Sqoop篇

    Sqoop的使用应该是Oozie里面最常用的了,因为很多BI数据分析都是基于业务数据库来做的,因此需要把mysql或者oracle的数据导入到hdfs中再利用mapreduce或者spark进行ETL ...

  8. 工作流引擎Oozie(一):workflow

    1. Oozie简介 Yahoo开发工作流引擎Oozie(驭象者),用于管理Hadoop任务(支持MapReduce.Spark.Pig.Hive),把这些任务以DAG(有向无环图)方式串接起来.Oo ...

  9. 工作流引擎Oozie(二):coordinator

    1. 简介 coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers).简单点说,coordinator按所定义 ...

  10. #数据技术选型#即席查询Shib+Presto,集群任务调度HUE+Oozie

    郑昀 创建于2014/10/30 最后更新于2014/10/31   一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标 使用者是产品/运营/销售 ...

随机推荐

  1. [SVN]TortoiseSVN工具培训4─客户端常用操作命令

    1.权限认证 当进行SVN任何操作时,如果是首次操作,SVN会弹出权限认证. 输入用户名和密码点击确认即可完成认证. 勾选保存用户数据信息,可以避免将来重复输入用户名和密码认证. 2.删除权限认证信息 ...

  2. Java—包装类、Date和SimpleDateFormat、Calendar类

    包装类 基本数据类型不能调用方法,功能简单,为了让基本数据类型也具备对象的特性,Java为每个基本数据类型提供了一个包装类,这样就可以像操作对象那样来操作基本数据类型. 基本类型和包装类之间的对应关系 ...

  3. sqlalchemy使用tip

    https://docs.sqlalchemy.org/en/latest/orm/tutorial.html http://docs.sqlalchemy.org/en/latest/core/sq ...

  4. Linux命令之查看服务进程(ps aux、ps -aux、ps -ef)的运用

    执行ps命令即可列出的是当前服务器进程的快照(时间点),如果想要实时动态的显示进程信息,就可以使用top命令. linux上进程有5种状态:  1. 运行(正在运行或在运行队列中等待)  2. 中断( ...

  5. Bonita portal 源码编译(未完成)

    首先下载源代码 https://github.com/bonitasoft/bonita-portal-js 以下内容为Github 的安装教程包含我安装过程中遇到的问题.并加以修正 Bonita p ...

  6. mysql全部基本数据类型

    MySQL基本数据类型统计http://www.cnblogs.com/xuqiang/archive/2010/10/14/1953464.html 详细介绍http://www.cnblogs.c ...

  7. bzoj1801 [Ahoi2009]中国象棋

    Description 在N行M列的棋盘上,放若干个炮可以是0个,使得没有任何一个炮可以攻击另一个炮. 请问有多少种放置方法,中国像棋中炮的行走方式大家应该很清楚吧. Input 一行包含两个整数N, ...

  8. Uva 11235 RMQ问题

    RMQ: 有一个不变的数组,不停的求一个区间的最小值. 使用倍增的思想优化到logN; d(i,j) 表示从 i 开始的,长度为2j的一段元素中的最小值. 那么状态转移方程: d(i,j) = min ...

  9. 2018年第九届蓝桥杯【C++省赛B组】第四题 测试次数

    x星球的居民脾气不太好,但好在他们生气的时候唯一的异常举动是:摔手机.各大厂商也就纷纷推出各种耐摔型手机.x星球的质监局规定了手机必须经过耐摔测试,并且评定出一个耐摔指数来,之后才允许上市流通.x星球 ...

  10. 2018.8.3 Java中容易犯错误的问题思考与总结

    Java容易犯错误的问题思考 float型 float f = 3.4 是否正确 不正确,应该用强制类型转换.如下所示:float f = (float)3.4 或float f = 3.4f 在ja ...