一、引入

MapReduce Job

Hive 脚本任务

同一个业务:先后、定时调度

工作流: 定义工作流程

activity

jbpm

oozie: 大数据工作流定义与调度框架

专门定义与调度MapReduce Job工作流程

拓展:shell、hive、sqoop、hdfs

oozie演变过程:

v1 Workflow 工作流定义

v2 Coordinator 调度

  基于时间、基于数据集是否可用

v3 bundle 将某些相关的Cordinator集成在一块

调度批量执行

案例:

nginx收集日志,每天进行分割(一天一个文件) ---> shell

每天分割出来的日志文件,上传到hdfs上   ---> shell/flume

mapreduce job数据清洗/ hive udf udts进行数据清洗

hive hsql 进行业务上的统计分析  pv uv 会话

sqoop导出到mysql里面

定义

start

两类节点:

控制流程节点:

decision选择节点

fork

join

顺序

action节点:

MapReduce action

shell

hive

sqoop

Oozie执行workflow:底层是MapReduce去执行Workflow

工作流引擎:MapReduce

启动一个workflow实例,运行工作流中任务,通过Mapreduce来执行

二、安装部署

1. 下载

2. 解压安装

1)

2)tar -zxvf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz -C ../

3)创建目录libext

/opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext

cp /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/hadooplibs/hadooplib-2.5.0-cdh5.3.6.oozie-4.0.0-cdh5.3.6/*.jar /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext/

4)cp /

ext-2.2.zip  ---> oozie使用了extjs

ext-2.2.zip copy 到 libext

5)将mysql的驱动包添加到libext

oozie需要有关系型数据库存储工作流运行过程中的状态流转信息

6)修改oozie-site.xml

oozie-env.sh

从CATALINA_OPTS看出,oozie内部使用的tomcat做应用服务器

7)打war包到tomcat中

bin/oozie-setup.sh prepare-war

成功:

New Oozie WAR file with added 'ExtJS library, JARs' at /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/oozie-server/webapps/oozie.war

8)将tar包解压并上传依赖包到hdfs上

bin/oozie-setup.sh sharelib create -fs hdfs://beifeng-hadoop-02:9000 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz

<property>
<name>oozie.service.WorkflowAppService.system.libpath</name>
<value>/user/${user.name}/share/lib</value>
<description>
System library path to use for workflow applications.
This path is added to workflow application if their job properties sets
the property 'oozie.use.system.libpath' to true.
</description>

9)初始化mysql中的oozie库

bin/oozie-setup.sh db create -run oozie.sql

10)启动oozie

bin/oozied.sh start

netstat -tlnup | grep 11000

11)访问

http://beifeng-hadoop-02:11000/oozie/

三、oozie使用

1. 运行案例

使用oozie来运行 fof 好友推荐 mapredue,首先要确保MapReduce能正常运行。

mapreduce-example.jar findfof bestfof

2. Oozie:工作流程是通过配置文件进行配置

worflow.xml  参考examples里面的皮遏制

oorzie运行workflow是通过MapReduce运行,所以workflow的配置文件需要先放到hdfs上

如何定义工作流并运行工作流(以MapReduce为例):

(1)先在本地文件系统定义好配置

(2)编写两个配置

job.properties  workflow.xml

(3)创建lib目录,将mapreduce jar包放进去

job.properties

YANR 的调度器的队列

yarn调度,其实就是讲mr job放到某个queue上运行

队列:

(1)FIFO

(2)Fair公平队列:先尽可能将资源分配给某个Job

比如只有一个job时,拥有所有资源,当有另一个job要执行,则会分出部分资源

(3)容量队列:多个FIFO队列,每个队列有资源占有率

往YARN上提交Job,根据Job的资源要求安排合适队列运行job任务。

3. 将配置上传到hdfs

4. 运行

bin/oozie job -oozie http://beifeng-hadoop-02:11000/oozie -config /opt/datas/oozie-apps/fof-mr/job.properties -run

补充概念:

DAG有向无环图:

Oozie workflow

storm 数据流

spark 本质核心 DAG

<ok to ="">

1)Map Reduce action

2) shell action

Oozie执行具有本地特性的shell脚本:

引子shell脚本

真正要执行的shell脚本,要在哪台服务器上,引子shell脚本就放在哪台服务器上。

password='beifeng'

/usr/bin/expect

切割日志

3) hive action

4)sqoop action

《OD学Oozie》20160807Oozie的更多相关文章

  1. 《OD学oozie》20160813

    一.日志收集项目案例 1. oozie中依赖jar包 在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业 将日志收集与处理项目案例使用oozie的workflow执行 3. coordi ...

  2. 《OD学Hive》第六周20160730

    一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...

  3. 《OD学hive》第四周0717

    一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...

  4. 《OD学hadoop》第二周0703

    hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...

  5. 《OD学hadoop》20160903某旅游网项目实战

    一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...

  6. 《OD学storm》20160827

    http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...

  7. 《OD学HBase》20160821

    一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...

  8. 《OD学HBase》20160820

    一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数 ...

  9. 《OD学HBase》20160814

    一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...

随机推荐

  1. CoreData (表结构变化处理)

    引言: Core Data 是 iOS 3.0 以后引入的数据持久化解决方案,其原理是对SQLite的封装,是开发者不需要接触SQL语句,就可以对数据库进行的操作. 其编码方式和原理结构方面较为特殊, ...

  2. 疑难杂症rendering(对角线上的线)

    postprocess全屏特效 对角线有条线 明显和buffer有关因为线由小的东西组成 就像之前没清空buffer产生的马赛克 beginscene时 clearmask 设0 ---------- ...

  3. xp/2003开关3389指令

    开启3389: @echo offtitle 开启3389clsrem 开启3389reg add "HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\ ...

  4. IE8下兼容rgba颜色的半透明背景

    在工作中做一个图片半透明遮罩时发现在IE8下不兼容 一查再知道IE8不支持rgba颜色,再搜搜兼容性方法,没想到这么快就解决了. 先说说rgba的含义: r代表red,g代表green,b代表blue ...

  5. Codis集群的搭建与使用

    一.简介 Codis是一个分布式的Redis解决方案,对于上层的应用来说,连接Codis Proxy和连接原生的Redis Server没有明显的区别(不支持的命令列表),上层应用可以像使用单机的Re ...

  6. SELINUX设为Disable 影响java SSH工具包Jsch 0.1.49.jar的一个案例

    最近项目中遇到一个典型事件,当RHEL 的SELINUX设为DISABLE时 使用JAVA的Jsch 库调用SSH命令时将随机返回空字符串,我使用的版本是0.1.49,最新版本0.1.51未测试. 关 ...

  7. UVA 624 CD(01背包+输出方案)

    01背包,由于要输出方案,所以还要在dp的同时,保存一下路径. #include <iostream> #include <stdio.h> #include <stri ...

  8. jQuery实现表格隔行换色且感应鼠标高亮行变色

    jQuery插件实现表格隔行换色且感应鼠标高亮行变色 http://www.jb51.net/article/41568.htm jquery 操作DOM的基本用法分享http://www.jb51. ...

  9. github and SourceTree初步使用

    1.建立连接(一次就行了) 输入你的github名字 2.创建仓库 3.下载仓库 这个时候打开SouceTree就可以看到之前创的仓库了 点击克隆,创建一个文件夹,讲路径设置好 这时候查看本地列表就会 ...

  10. HDU 1217 Arbitrage (Floyd)

    Arbitrage http://acm.hdu.edu.cn/showproblem.php?pid=1217 Problem Description Arbitrage is the use of ...