Oozie_初识
Oozie 任务调度框架(基于工作流)
oozie运行于hadoop集群,对hive,mr,flume,Soop,spark,shell等框架进行任务流调度
如: job1-->job2 & job3-->job4 & job5...
其中,job1用于采集数据,job2与job3用于数据清洗,job4,job5,jobn等用于数据分析
对MR和pigJobs任务调度与协调,需要用到servlet容器(自身框架封装了TomcatHTTPServer)
简单来说,该框架实现任务的自动化,各个处理部分不需要人为控制
PS:oozie如果其中一个job处理失败,不会有回滚,其处理的方式是直接停止
任务调度框架
1. crontab(最简单的任务调度框架)
格式: *(分) *(时) *(日) *(月) *(周) command
1-6:连续的时间
1,6:不连续的时间
*/1:每小时
第1列表示分钟1~59 每分钟用*或者 */1表示
第2列表示小时1~23(0表示0点)
第3列表示日期1~31
第4列表示月份1~12
第5列标识号星期0~6(0表示星期天)
第6列要运行的命令
例
30 21 * * * /usr/local/etc/rc.d/lighttpd restart
上面的例子表示每晚的21:30重启apache
45 4 1,10,22 * * /usr/local/etc/rc.d/lighttpd restart
上面的例子表示每月1、10、22日的4 : 45重启apache
10 1 * * 6,0 /usr/local/etc/rc.d/lighttpd restart
上面的例子表示每周六、周日的1 : 10重启apache
0,30 18-23 * * * /usr/local/etc/rc.d/lighttpd restart
上面的例子表示在每天18 : 00至23 : 00之间每隔30分钟重启apache。
0 23 * * 6 /usr/local/etc/rc.d/lighttpd restart
上面的例子表示每星期六的11 : 00 pm重启apache
* */1 * * * /usr/local/etc/rc.d/lighttpd restart
每一小时重启apache
* 23-7/1 * * * /usr/local/etc/rc.d/lighttpd restart
晚上11点到早上7点之间,每隔一小时重启apache
0 11 4 * mon-wed /usr/local/etc/rc.d/lighttpd restart
每月的4号与每周一到周三的11点重启apache
0 4 1 jan * /usr/local/etc/rc.d/lighttpd restart
一月一号的4点重启apache
crontab -r : 删除目前的时程表
crontab -l : 列出目前的时程表
crontab file [-u user]-用指定的文件替代目前的crontab
2. Azkaban
linkdin:开源任务调度框架
properties文件控制工作流
3. Oozie
Xml文件控制工作流
大致工作流
start -> job1 -> job2 & job3 -> ... --> ok > end
--> faile -> kill
4. Zeus
宙斯是一个完整的Hadoop作业平台,支持
Hadoop MR任务的调试运行
Hive任务的调试运行
Shell人数的运行
Hive元数据的可视化查询数据与预览
Hadoopr任务的自动调度
PS:三者各有各的优点,但从使用角度来看oozie较流行,原因之一是hue框架能整合Hadoop所有框架,且界面友好,功能强大
Oozie三大功能
workflow jobs(简单的任务流)
coordinator jobs(加入定时调度:起始时间,结束时间,频率)
Bundle(多个coordinator jobs或这多个workflow的集合)
Oozie的架构
控制流节点 action
起始,结束,并发,分支,合并
动作节点 action
job: mapreduce action
job: hive action
job: shell action
子节点
实现
oozie server
hadoop集群
自带数据库 derby
Oozie安装部署
下载相应与Hadoop版本的oozie.tar.gz与ext-x.x.zip
上传至linux
安装oozieser
配置hadoop代理core-site.xml
hadoop.proxyuser.[OOZIE_SERVER_USER].hosts--[OOZIE_SERVER_HOSTNAME]
hadoop.proxyuser.[OOZIE_SERVER_USER].groups--[USER_GROUPS_THAT_ALLOW_IMPERSONATION]
重启Hadoop集群
当前目录解压oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz
oozie目录下多出一个oozie-4.0.0-cdh5.3.6文件夹(存放hadoop1与hadoop2的相关jar包)
创建libext文件夹
将hadoop对应版本的jar包放入
将ext-x.x.zip也放入libext文件夹内
创建sharelib库(HDFS上的jar库,用于运行所有job依赖)
$ bin/oozie-setup.sh sharelib create -fs <FS_URI> [-locallib <PATH>]
$ bin/oozie-setup.sh sharelib create -fs hdfs://hadoop09-linux-01.ibeifeng.com:8020 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz
打包libext目录的jar包作为oozie运行的jar包库
$ bin/oozie-setup.sh prepare-war [-d directory] [-secure]
$ bin/oozie-setup.sh prepare-war
初始化数据库
$ bin/ooziedb.sh create -sqlfile oozie.sql -run DB Connection
简单配置两个属性
oozie-default.xml
org.apache.oozie.service.JobsConcurrencyService移至第一行
if not oozie的后台目录中会报NullPointerException错误
oozie-site.xml
oozie.service.HadoopAccessorService.hadoop.configurations=*=/opt/cdh-5.6.3/hadoop-2.5.0-cdh5.3.6/etc/hadoop
if not 会报/user/Hadoop/share/lib文件找不到错误
启动oozie
$ bin/oozied.sh start (jps,进程多出一个BootStrap)
Oozie_初识的更多相关文章
- Android动画效果之初识Property Animation(属性动画)
前言: 前面两篇介绍了Android的Tween Animation(补间动画) Android动画效果之Tween Animation(补间动画).Frame Animation(逐帧动画)Andr ...
- 初识Hadoop
第一部分: 初识Hadoop 一. 谁说大象不能跳舞 业务数据越来越多,用关系型数据库来存储和处理数据越来越感觉吃力,一个查询或者一个导出,要执行很长 ...
- python学习笔记(基础四:模块初识、pyc和PyCodeObject是什么)
一.模块初识(一) 模块,也叫库.库有标准库第三方库. 注意事项:文件名不能和导入的模块名相同 1. sys模块 import sys print(sys.path) #打印环境变量 print(sy ...
- 初识IOS,Label控件的应用。
初识IOS,Label控件的应用. // // ViewController.m // Gua.test // // Created by 郭美男 on 16/5/31. // Copyright © ...
- UI篇(初识君面)
我们的APP要想吸引用户,就要把UI(脸蛋)搞漂亮一点.毕竟好的外貌是增进人际关系的第一步,我们程序员看到一个APP时,第一眼就是看这个软件的功能,不去关心界面是否漂亮,看到好的程序会说"我 ...
- Python导出Excel为Lua/Json/Xml实例教程(一):初识Python
Python导出Excel为Lua/Json/Xml实例教程(一):初识Python 相关链接: Python导出Excel为Lua/Json/Xml实例教程(一):初识Python Python导出 ...
- 初识SpringMvc
初识SpringMvc springMvc简介:SpringMVC也叫Spring Web mvc,属于表现层的框架.Spring MVC是Spring框架的一部分,是在Spring3.0后发布的 s ...
- 初识redis数据类型
初识redis数据类型 1.String(字符串) string是redis最基本的类型,一个key对应一个value. string类型是二进制安全的.意思是redis的string可以包含任何数据 ...
- Redis初识、设计思想与一些学习资源推荐
一.Redis简介 1.什么是Redis Redis 是一个开源的使用ANSI C 语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value 数据库,并提供多种语言的API.从2010 年 ...
随机推荐
- 让“是男人就下到100层”在Android平台上跑起来
原工程:https://github.com/jeekun/DownFloors 移植后的代码:HelloCpp.zip 移植后的APK:HelloCpp.apk 说明:(cocos2d-x版本是“ ...
- UILabel 的一个蛋疼问题
一.问题描述 在iOS8以下版本,numberOfLines设置为0,编译警告Automatic Preferred Max Layout Width before iOS8.0,同时不能换行. 二. ...
- 自定义注解之运行时注解(RetentionPolicy.RUNTIME)
对注解概念不了解的可以先看这个:Java注解基础概念总结 前面有提到注解按生命周期来划分可分为3类: 1.RetentionPolicy.SOURCE:注解只保留在源文件,当Java文件编译成clas ...
- PHP 练习题
Php基础知识测试题 本试题共40道选择题,10道判断题,考试时间1个半小时 一:选择题(单项选择,每题2分): 1. LAMP具体结构不包含下面哪种(A ) A:Windows系统 B:Apache ...
- 3.2 配置构建Angular应用——简单的笔记存储应用
本节我们会通过构建一个简单的笔记存储应用(可以载入并修改一组简单的笔记)来学习如何应用Angular的特性.这个应用用到的特性有: 在JSON文件中存储笔记 展示.创建.修改和删除笔记 在笔记中使用M ...
- 关于安装teamviewer11出现verification of your teamviewer version failed错误处理
关于安装teamviewer11出现verification of your teamviewer version failed错误处理 teamviewer 在ubuntu 中安装方法是: 去tea ...
- MS SQLServer 批量附加数据库 分类: SQL Server 数据库 2015-07-13 11:12 30人阅读 评论(0) 收藏
************************************************************ * 标题:MS SQLServer 批量附加数据库 * 说明:请根据下面的注释 ...
- 查看文本[Linux]
查看文本 不分屏查看 cat (默认标准输入到标准输出) -n(行号) 连接...并显示 -E(每行行尾打印$) 翻屏:shift+pageUp/pageDown tac reverse cat 分屏 ...
- 百度UEditor在线编辑器的配置和图片上传
前言 最近在项目中使用了百度UEditor富文本编辑器,配置UEditor过程中遇到了几个问题,在此记录一下解决方案和使用方法,避免以后使用UEditor出现类似的错误. 基本配置 一.下载UEdit ...
- SVN基本指令
Svn使用: Versions: Cornerstone: 如果命令行不出来,可以设置commonsline Tools 命令行:svn heip 获取服务器端数据 svn checkout 远端ur ...