oozie 入门

转自：http://blackproof.iteye.com/blog/1928122

oozie概述：oozie能干什么

oozie格式：怎么用oozie

oozie执行：怎么运行oozie

oozie概述：

oozie是基于hadoop的调度器，以xml的形式写调度流程，可以调度mr，pig，hive，shell，jar等等。

主要的功能有

Workflow：顺序执行流程节点，支持fork（分支多个节点），join（合并多个节点为一个）

Coordinator，定时触发workflow

Bundle Job，绑定多个coordinator

oozie格式：

写一个oozie，有两个是必要的：job.properties 和 workflow.xml(coordinator.xml,bundle.xml)

一、job.properties里定义环境变量

nameNode	hdfs://xxx5:8020	hdfs地址
jobTracker	xxx5:8034	jobTracker地址
queueName	default	oozie队列
examplesRoot	examples	全局目录
oozie.usr.system.libpath	true	是否加载用户lib库
oozie.libpath	share/lib/user	用户lib库
oozie.wf.appication.path	${nameNode}/user/${user.name}/...	oozie流程所在hdfs地址

注意：

workflow：oozie.wf.application.path

coordinator：oozie.coord.application.path

bundle：oozie.bundle.application.path

二、XML

1.workflow：

<workflow-app xmlns="uri:oozie:workflow:0.2" name="wf-example1">
<start to="pig-node">
<action name="pig-node">
<pig>
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="hdfs://xxx5/user/hadoop/appresult" />
</prepare>
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>default</value>
<property>
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<property>
<property>
<name>mapreduce.fileoutputcommitter.marksuccessfuljobs</name>
<value>false</value>
<property>
</configuration>
<script>test.pig</script>
<param>filepath=${filpath}</param>
</pig>
<ok to="end">
<error to="fail">
</action>
<kill name="fail">
<message>
Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]
</message>
</kill>
<end name="end"/>
</workflow-app>

2.coordinator

<coordinator-app name="cron-coord" frequence="${coord:hours(6)}" start="${start}" end="${end}"
timezoe="UTC" xmlns="uri:oozie:coordinator:0.2">
<action>
<workflow>
<app-path>${nameNode}/user/{$coord:user()}/${examplesRoot}/wpath</app-path>
<configuration>
<property>
<name>jobTracker</name>
<value>${jobTracker}</value>
</property>
<property>
<name>nameNode</name>
<value>${nameNode}</value>
</property>
<property>
<name>queueName</name>
<value>${queueName}</value>
</property>
</configuration>
</workflow>
</action>

注意：coordinator设置的UTC，比北京时间晚8个小时，所以你要是把期望执行时间减8小时

coordinator里面传值给workflow，example，时间设置为亚洲

<coordinator-app name="gwk-hour-log-coord" frequency="${coord:hours(1)}" start="${hourStart}" end="${hourEnd}" timezone="Asia/Shanghai"
xmlns="uri:oozie:coordinator:0.2">
<action>
<workflow>
<app-path>${workflowHourLogAppUri}/gwk-workflow.xml</app-path>
<configuration>
<property>
<name>yyyymmddhh</name>
<value>${coord:formatTime(coord:dateOffset(coord:nominalTime(),-1,'HOUR'), 'yyyyMMddHH')}</value>
</property>
</configuration>
</workflow>
</action>
</coordinator-app>

3.bundle

<bundle-app name='APPNAME' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns='uri:oozie:bundle:0.1'>
<controls>
<kick-off-time>${kickOffTime}</kick-off-time>
</controls>
<coordinator name='coordJobFromBundle1' >
<app-path>${appPath}</app-path>
<configuration>
<property>
<name>startTime1</name>
<value>${START_TIME}</value>
</property>
<property>
<name>endTime1</name>
<value>${END_TIME}</value>
</property>
</configuration>
</coordinator>
<coordinator name='coordJobFromBundle2' >
<app-path>${appPath2}</app-path>
<configuration>
<property>
<name>startTime2</name>
<value>${START_TIME2}</value>
</property>
<property>
<name>endTime2</name>
<value>${END_TIME2}</value>
</property>
</configuration>
</coordinator>
</bundle-app>

oozie hive

<action name="hive-app">
<hive xmlns="uri:oozie:hive-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<job-xml>hive-site.xml</job-xml>
<script>hivescript.q</script>
<param>yyyymmdd=${yyyymmdd}</param>
<param>yesterday=${yesterday}</param>
<param>lastmonth=${lastmonth}</param>
</hive>
<ok to="result-stat-join"/>
<error to="fail"/>
</action>

oozie运行

启动任务：

oozie job -oozie http://xxx5:11000/oozie -config job.properties -run

停止任务：

oozie job -oozie http://localhost:8080/oozie -kill 14-20090525161321-oozie-joe

注意：在停止任务的时候，有的时候会出现全线问题，需要修改oozie-site.xml文件

hadoop.proxyuser.oozie.groups *

hadoop.proxyuser.oozie.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.groups *

oozie 入门的更多相关文章

Oozie入门
作者 Boris Lublinsky, Michael Segel ,译者侯伯薇发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分 ...
Oozie 快速入门
设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执 ...
oozie工作流相关入门整理
Oozie支持工作流,其定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行.一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含 ...
入门大数据---安装ClouderaManager,CDH和Impala,Hue，oozie等服务
1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了.) 1.1 支持的操作系统版本操作系统版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
Hadoop入门
一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)Hadoop主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指 ...
【Oozie学习之一】Oozie
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一.简介Oozie由Cloudera公司贡献给A ...
[转帖]Flink（一）Flink的入门简介
Flink(一)Flink的入门简介 https://www.cnblogs.com/frankdeng/p/9400622.html 一. Flink的引入这几年大数据的飞速发展,出现了很多热门的 ...
大数据学习笔记之Hadoop（一）：Hadoop入门
文章目录大数据概论一.大数据概念二.大数据的特点三.大数据能干啥? 四.大数据发展前景五.企业数据部的业务流程分析六.企业数据部的一般组织结构 Hadoop(入门) 一从Hadoop框架 ...

随机推荐

PHP文件锁定写入实例分享
PHP文件锁定写入实例解析. 原文地址:http://www.jbxue.com/article/23118.html PHP文件写入方法,以应对多线程写入,具体代码: function file_w ...
Win7多用户情况下，指定某一用户为自动登陆-解决办法
转自:http://sbiuggypm.themex.net/archives/605 许久没更新博客了,但从后台可以查看到,有不少朋友还是几乎每天来逛一逛,很对不起的是最近都没更新啥内容.真是不好意 ...
angular中的jqLite所包含的jquery API
Angular本身包含了一个叫做jqLite的可兼容性库. 使用过的angular.element()方法就返回一个jqLite对象, jqLite是jQuery库的子集,它允许Angular以跨 ...
Spark VS Presto VS Impala
https://www.quora.com/What-is-the-difference-between-Spark-and-Presto
C++11 delete和default
Defaulted 函数 C++ 的类有四个特殊成员函数,它们分别是:默认构造函数.析构函数.拷贝构造函数以及拷贝赋值运算符.这些类的特殊成员函数负责创建.初始化.销毁,或者拷贝类的对象. 如果程序员 ...
Kudu:支持快速分析的新型Hadoop存储系统
Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Hadoop ...
【驱动】MTD子系统分析
MTD介绍 MTD,Memory Technology Device即内存技术设备字符设备和块设备的区别在于前者只能被顺序读写,后者可以随机访问:同时,两者读写数据的基本单元不同. 字符设备,以字节 ...
一次tomcat配置参数调优Jmeter压力测试记录前后对比
使用的tomcat版本为:apache-tomcat-7.0.53 使用测试工具Jmeter版本为:apache-jmeter-2.12 1.测试前tomat的"server.xml&quo ...
java 多线程 30: 多线程组件之 CyclicBarrier
CyclicBarrier 接着讲多线程下的其他组件,第一个要讲的就是CyclicBarrier.CyclicBarrier从字面理解是指循环屏障,它可以协同多个线程,让多个线程在这个屏障前等待,直到 ...
zoj 3761（并查集+搜索）
题意:在一个平面上,有若干个球,给出球的坐标,每次可以将一个球朝另一个球打过去(只有上下左右),碰到下一个球之后原先的球停下来,然后被撞的球朝这个方向移动,直到有一个球再也撞不到下一个球后,这个球飞出 ...