转自:http://blackproof.iteye.com/blog/1928122

oozie概述:oozie能干什么

oozie格式:怎么用oozie

oozie执行:怎么运行oozie

oozie概述:

oozie是基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。

主要的功能有

Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)

Coordinator,定时触发workflow

Bundle Job,绑定多个coordinator

oozie格式:

写一个oozie,有两个是必要的:job.properties 和 workflow.xml(coordinator.xml,bundle.xml)

一、job.properties里定义环境变量

nameNode hdfs://xxx5:8020 hdfs地址
jobTracker xxx5:8034 jobTracker地址
queueName default oozie队列
examplesRoot examples 全局目录
oozie.usr.system.libpath true 是否加载用户lib库
oozie.libpath share/lib/user 用户lib库
oozie.wf.appication.path ${nameNode}/user/${user.name}/... oozie流程所在hdfs地址

注意:

workflow:oozie.wf.application.path

coordinator:oozie.coord.application.path

bundle:oozie.bundle.application.path

二、XML

1.workflow:

  1. <workflow-app xmlns="uri:oozie:workflow:0.2" name="wf-example1">
  2. <start to="pig-node">
  3. <action name="pig-node">
  4. <pig>
  5. <job-tracker>${jobTracker}</job-tracker>
  6. <name-node>${nameNode}</name-node>
  7. <prepare>
  8. <delete path="hdfs://xxx5/user/hadoop/appresult" />
  9. </prepare>
  10. <configuration>
  11. <property>
  12. <name>mapred.job.queue.name</name>
  13. <value>default</value>
  14. <property>
  15. <property>
  16. <name>mapred.compress.map.output</name>
  17. <value>true</value>
  18. <property>
  19. <property>
  20. <name>mapreduce.fileoutputcommitter.marksuccessfuljobs</name>
  21. <value>false</value>
  22. <property>
  23. </configuration>
  24. <script>test.pig</script>
  25. <param>filepath=${filpath}</param>
  26. </pig>
  27. <ok to="end">
  28. <error to="fail">
  29. </action>
  30. <kill name="fail">
  31. <message>
  32. Map/Reduce failed, error               message[${wf:errorMessage(wf:lastErrorNode())}]
  33. </message>
  34. </kill>
  35. <end name="end"/>
  36. </workflow-app>

2.coordinator

  1. <coordinator-app name="cron-coord" frequence="${coord:hours(6)}" start="${start}" end="${end}"
  2. timezoe="UTC" xmlns="uri:oozie:coordinator:0.2">
  3. <action>
  4. <workflow>
  5. <app-path>${nameNode}/user/{$coord:user()}/${examplesRoot}/wpath</app-path>
  6. <configuration>
  7. <property>
  8. <name>jobTracker</name>
  9. <value>${jobTracker}</value>
  10. </property>
  11. <property>
  12. <name>nameNode</name>
  13. <value>${nameNode}</value>
  14. </property>
  15. <property>
  16. <name>queueName</name>
  17. <value>${queueName}</value>
  18. </property>
  19. </configuration>
  20. </workflow>
  21. </action>

注意:coordinator设置的UTC,比北京时间晚8个小时,所以你要是把期望执行时间减8小时

coordinator里面传值给workflow,example,时间设置为亚洲

  1. <coordinator-app name="gwk-hour-log-coord" frequency="${coord:hours(1)}" start="${hourStart}" end="${hourEnd}" timezone="Asia/Shanghai"
  2. xmlns="uri:oozie:coordinator:0.2">
  3. <action>
  4. <workflow>
  5. <app-path>${workflowHourLogAppUri}/gwk-workflow.xml</app-path>
  6. <configuration>
  7. <property>
  8. <name>yyyymmddhh</name>
  9. <value>${coord:formatTime(coord:dateOffset(coord:nominalTime(),-1,'HOUR'), 'yyyyMMddHH')}</value>
  10. </property>
  11. </configuration>
  12. </workflow>
  13. </action>
  14. </coordinator-app>

3.bundle

  1. <bundle-app name='APPNAME' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns='uri:oozie:bundle:0.1'>
  2. <controls>
  3. <kick-off-time>${kickOffTime}</kick-off-time>
  4. </controls>
  5. <coordinator name='coordJobFromBundle1' >
  6. <app-path>${appPath}</app-path>
  7. <configuration>
  8. <property>
  9. <name>startTime1</name>
  10. <value>${START_TIME}</value>
  11. </property>
  12. <property>
  13. <name>endTime1</name>
  14. <value>${END_TIME}</value>
  15. </property>
  16. </configuration>
  17. </coordinator>
  18. <coordinator name='coordJobFromBundle2' >
  19. <app-path>${appPath2}</app-path>
  20. <configuration>
  21. <property>
  22. <name>startTime2</name>
  23. <value>${START_TIME2}</value>
  24. </property>
  25. <property>
  26. <name>endTime2</name>
  27. <value>${END_TIME2}</value>
  28. </property>
  29. </configuration>
  30. </coordinator>
  31. </bundle-app>

oozie hive

  1. <action name="hive-app">
  2. <hive xmlns="uri:oozie:hive-action:0.2">
  3. <job-tracker>${jobTracker}</job-tracker>
  4. <name-node>${nameNode}</name-node>
  5. <job-xml>hive-site.xml</job-xml>
  6. <script>hivescript.q</script>
  7. <param>yyyymmdd=${yyyymmdd}</param>
  8. <param>yesterday=${yesterday}</param>
  9. <param>lastmonth=${lastmonth}</param>
  10. </hive>
  11. <ok to="result-stat-join"/>
  12. <error to="fail"/>
  13. </action>

oozie运行

启动任务:

  1. oozie job -oozie http://xxx5:11000/oozie -config job.properties -run

停止任务:

oozie job -oozie http://localhost:8080/oozie -kill 14-20090525161321-oozie-joe

注意:在停止任务的时候,有的时候会出现全线问题,需要修改oozie-site.xml文件

hadoop.proxyuser.oozie.groups *

hadoop.proxyuser.oozie.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.groups *

oozie 入门的更多相关文章

  1. Oozie入门

    作者 Boris Lublinsky, Michael Segel ,译者 侯伯薇 发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分 ...

  2. Oozie 快速入门

    设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执 ...

  3. oozie工作流相关入门整理

        Oozie支持工作流,其定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行.一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含 ...

  4. 入门大数据---安装ClouderaManager,CDH和Impala,Hue,oozie等服务

    1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了.) 1.1 支持的操作系统版本 操作系统 版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, ...

  5. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  6. Hadoop入门

    一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)Hadoop主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指 ...

  7. 【Oozie学习之一】Oozie

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一.简介Oozie由Cloudera公司贡献给A ...

  8. [转帖]Flink(一)Flink的入门简介

    Flink(一)Flink的入门简介 https://www.cnblogs.com/frankdeng/p/9400622.html 一. Flink的引入 这几年大数据的飞速发展,出现了很多热门的 ...

  9. 大数据学习笔记之Hadoop(一):Hadoop入门

    文章目录 大数据概论 一.大数据概念 二.大数据的特点 三.大数据能干啥? 四.大数据发展前景 五.企业数据部的业务流程分析 六.企业数据部的一般组织结构 Hadoop(入门) 一 从Hadoop框架 ...

随机推荐

  1. Android 控件: Webview 的一些知识点

    WebView 加载网页,当点击返回键的时,会显示上一个页面,并刷新. 同时可以对返回上一个页面进行干预,就是用到了缓存. webview加载网页的几个模式,即websetting中设置的加载模式.w ...

  2. Atitit  undac网络设备管理法案 (路由器 交换机等)    法案编号USRr101510

    Atitit  undac网络设备管理法案 (路由器 交换机等)    法案编号USRr101510 1.1. 版本历史1 1.2. 密码设置规范 与原则1 1.3. 如何设置密码 ,设置一个简单又安 ...

  3. 【Unity】4.7 摄像机

    分类:Unity.C#.VS2015 创建日期:2016-04-11 一.简介 摄像机(Camera)是为玩家捕捉并展示世界的一种设备.场景中至少需要有一台摄像机,也可以在一个场景中使用多台摄像机.这 ...

  4. Boost家族

    大师Yoav Freund在文章<A decision-theoretic generalization of on-line leanring and an application to bo ...

  5. Capterra Software Categories

    https://www.capterra.com/categories this software categories is valuable.

  6. mysql 通过echo的方式写入数据库 中文乱码解决方案

    echo "set names utf8;insert into xxx (path, sn, time, flag) values ('$wav', '$sn', '$secs', 'op ...

  7. Android SDK下载和更新失败解决方法

    原因是dl-ssl.google.com访问不到,解决方法就是修改C:\Windows\System32\drivers\etc\hosts文件.添加一行: 74.125.237.1       dl ...

  8. docker简易命令

    docker应用 安装 sudo yum install docker 启动 docker 进程 $ sudo service docker start Docker 默认开机启动 $ sudo ch ...

  9. list<PageData>传jsp隐藏域,在传回java

    java传jsp,代码如下: /**去修改页面 * @param * @throws Exception */ @RequestMapping(value="/goEdit") p ...

  10. java基础篇---I/O技术(一)

    对于任何程序设计语言而言,输入输出(I/O)系统都是比较复杂的而且还是比较核心的.在java.io.包中提供了相关的API. java中流的概念划分 流的方向: 输入流:数据源到程序(inputStr ...