《OD学Oozie》20160807Oozie
一、引入
MapReduce Job
Hive 脚本任务
同一个业务:先后、定时调度
工作流: 定义工作流程
activity
jbpm
oozie: 大数据工作流定义与调度框架
专门定义与调度MapReduce Job工作流程
拓展:shell、hive、sqoop、hdfs
oozie演变过程:
v1 Workflow 工作流定义
v2 Coordinator 调度
基于时间、基于数据集是否可用
v3 bundle 将某些相关的Cordinator集成在一块
调度批量执行
案例:
nginx收集日志,每天进行分割(一天一个文件) ---> shell
每天分割出来的日志文件,上传到hdfs上 ---> shell/flume
mapreduce job数据清洗/ hive udf udts进行数据清洗
hive hsql 进行业务上的统计分析 pv uv 会话
sqoop导出到mysql里面
定义
start
两类节点:
控制流程节点:
decision选择节点
fork
join
顺序
action节点:
MapReduce action
shell
hive
sqoop
Oozie执行workflow:底层是MapReduce去执行Workflow
工作流引擎:MapReduce
启动一个workflow实例,运行工作流中任务,通过Mapreduce来执行
二、安装部署
1. 下载
2. 解压安装
1)
2)tar -zxvf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz -C ../
3)创建目录libext
/opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext
cp /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/hadooplibs/hadooplib-2.5.0-cdh5.3.6.oozie-4.0.0-cdh5.3.6/*.jar /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext/
4)cp /
ext-2.2.zip ---> oozie使用了extjs
ext-2.2.zip copy 到 libext
5)将mysql的驱动包添加到libext
oozie需要有关系型数据库存储工作流运行过程中的状态流转信息
6)修改oozie-site.xml
oozie-env.sh
从CATALINA_OPTS看出,oozie内部使用的tomcat做应用服务器
7)打war包到tomcat中
bin/oozie-setup.sh prepare-war
成功:
New Oozie WAR file with added 'ExtJS library, JARs' at /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/oozie-server/webapps/oozie.war
8)将tar包解压并上传依赖包到hdfs上
bin/oozie-setup.sh sharelib create -fs hdfs://beifeng-hadoop-02:9000 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz
<property>
<name>oozie.service.WorkflowAppService.system.libpath</name>
<value>/user/${user.name}/share/lib</value>
<description>
System library path to use for workflow applications.
This path is added to workflow application if their job properties sets
the property 'oozie.use.system.libpath' to true.
</description>
9)初始化mysql中的oozie库
bin/oozie-setup.sh db create -run oozie.sql
10)启动oozie
bin/oozied.sh start
netstat -tlnup | grep 11000
11)访问
http://beifeng-hadoop-02:11000/oozie/
三、oozie使用
1. 运行案例
使用oozie来运行 fof 好友推荐 mapredue,首先要确保MapReduce能正常运行。
mapreduce-example.jar findfof bestfof
2. Oozie:工作流程是通过配置文件进行配置
worflow.xml 参考examples里面的皮遏制
oorzie运行workflow是通过MapReduce运行,所以workflow的配置文件需要先放到hdfs上
如何定义工作流并运行工作流(以MapReduce为例):
(1)先在本地文件系统定义好配置
(2)编写两个配置
job.properties workflow.xml
(3)创建lib目录,将mapreduce jar包放进去
job.properties
YANR 的调度器的队列
yarn调度,其实就是讲mr job放到某个queue上运行
队列:
(1)FIFO
(2)Fair公平队列:先尽可能将资源分配给某个Job
比如只有一个job时,拥有所有资源,当有另一个job要执行,则会分出部分资源
(3)容量队列:多个FIFO队列,每个队列有资源占有率
往YARN上提交Job,根据Job的资源要求安排合适队列运行job任务。
3. 将配置上传到hdfs
4. 运行
bin/oozie job -oozie http://beifeng-hadoop-02:11000/oozie -config /opt/datas/oozie-apps/fof-mr/job.properties -run
补充概念:
DAG有向无环图:
Oozie workflow
storm 数据流
spark 本质核心 DAG
<ok to ="">
1)Map Reduce action
2) shell action
Oozie执行具有本地特性的shell脚本:
引子shell脚本
真正要执行的shell脚本,要在哪台服务器上,引子shell脚本就放在哪台服务器上。
password='beifeng'
/usr/bin/expect
切割日志
3) hive action
4)sqoop action
《OD学Oozie》20160807Oozie的更多相关文章
- 《OD学oozie》20160813
一.日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordi ...
- 《OD学Hive》第六周20160730
一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...
- 《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
- 《OD学hadoop》第二周0703
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...
- 《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
- 《OD学storm》20160827
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...
- 《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
- 《OD学HBase》20160820
一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数 ...
- 《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
随机推荐
- sql records
DROP TABLE IF EXISTS student; CREATE TABLE student ( id INT NOT NULL AUTO_INCREMENT, student_name ) ...
- go lang学习笔记——channel机理及调度理解
<Go语言编程>一书介绍了libtask库,可以认为这个库等同于go的底层goroutine实现. libtask库的channel的数据结构如下: struct Alt { Channe ...
- 引擎设计跟踪(九.14.2g) 将GNUMake集成到Visual Studio
最近在做纹理压缩工具, 以及数据包的生成. shader编译已经在vs工程里面了, 使用custom build tool, build命令是调用BladeShaderComplier, 并且每个文件 ...
- HDOJ 3486 Interviewe
人生中第一次写RMQ....一看就知道 RMQ+2分但是题目文不对题....不知道到底在问什么东西....各种WA,TLE,,RE...后就过了果然无论错成什么样都可以过的,就是 上层的样例 啊 I ...
- Sqli-labs less 52
Less-52 和less50是一样的,只是这里的mysql错误不会在前台显示,但是对于stacked injection是一样的利用方式 http://127.0.0.1/sqli-labs/Les ...
- HDU 1828 / POJ 1177 Picture (线段树扫描线,求矩阵并的周长,经典题)
做这道题之前,建议先做POJ 1151 Atlantis,经典的扫描线求矩阵的面积并 参考连接: http://www.cnblogs.com/scau20110726/archive/2013/0 ...
- C难点分析
1. 形参和实参 调用函数时,写在括号里面的就是实参,函数本身用的就是形参. 2.字符串问题 char a[5]={"abcd"};注意是4个字符,而不是5个 字符串数组后面带 ...
- lintcode: 旋转图像
旋转图像 给定一个N×N的二维矩阵表示图像,90度顺时针旋转图像. 解题 顺时针旋转90度 就是 上下翻转,再主对角对折 public class Solution { /** * @param ma ...
- Android异步下载图片并且缓存图片到本地
Android异步下载图片并且缓存图片到本地 在Android开发中我们经常有这样的需求,从服务器上下载xml或者JSON类型的数据,其中包括一些图片资源,本demo模拟了这个需求,从网络上加载XML ...
- eclipse导入的工程前面有感叹号是什么意思
1.尤其是从其他地方拷贝来并且直接加载的工程,刚打开往往会看到工程的图标上有个红色的感叹号,这是因为build path 出错了,里面有缺失或者无法找到的包. 2. 原因:显示红色感叹号是因为jar包 ...