《OD学Oozie》20160807Oozie

一、引入

MapReduce Job

Hive 脚本任务

同一个业务：先后、定时调度

工作流：定义工作流程

activity

jbpm

oozie：大数据工作流定义与调度框架

专门定义与调度MapReduce Job工作流程

拓展：shell、hive、sqoop、hdfs

oozie演变过程：

v1 Workflow 工作流定义

v2 Coordinator 调度

　　基于时间、基于数据集是否可用

v3 bundle 将某些相关的Cordinator集成在一块

调度批量执行

案例：

nginx收集日志，每天进行分割（一天一个文件） ---> shell

每天分割出来的日志文件，上传到hdfs上 ---> shell/flume

mapreduce job数据清洗/ hive udf udts进行数据清洗

hive hsql 进行业务上的统计分析 pv uv 会话

sqoop导出到mysql里面

定义

start

两类节点：

控制流程节点：

decision选择节点

fork

join

顺序

action节点：

MapReduce action

shell

hive

sqoop

Oozie执行workflow：底层是MapReduce去执行Workflow

工作流引擎：MapReduce

启动一个workflow实例，运行工作流中任务，通过Mapreduce来执行

二、安装部署

1. 下载

2. 解压安装

1）

2）tar -zxvf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz -C ../

3）创建目录libext

/opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext

cp /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/hadooplibs/hadooplib-2.5.0-cdh5.3.6.oozie-4.0.0-cdh5.3.6/*.jar /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/libext/

4）cp /

ext-2.2.zip ---> oozie使用了extjs

ext-2.2.zip copy 到 libext

5）将mysql的驱动包添加到libext

oozie需要有关系型数据库存储工作流运行过程中的状态流转信息

6）修改oozie-site.xml

oozie-env.sh

从CATALINA_OPTS看出，oozie内部使用的tomcat做应用服务器

7）打war包到tomcat中

bin/oozie-setup.sh prepare-war

成功：

New Oozie WAR file with added 'ExtJS library, JARs' at /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/oozie-server/webapps/oozie.war

8）将tar包解压并上传依赖包到hdfs上

bin/oozie-setup.sh sharelib create -fs hdfs://beifeng-hadoop-02:9000 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz

<property>
<name>oozie.service.WorkflowAppService.system.libpath</name>
<value>/user/${user.name}/share/lib</value>
<description>
System library path to use for workflow applications.
This path is added to workflow application if their job properties sets
the property 'oozie.use.system.libpath' to true.
</description>

9）初始化mysql中的oozie库

bin/oozie-setup.sh db create -run oozie.sql

10）启动oozie

bin/oozied.sh start

netstat -tlnup | grep 11000

11）访问

http://beifeng-hadoop-02:11000/oozie/

三、oozie使用

1. 运行案例

使用oozie来运行 fof 好友推荐 mapredue，首先要确保MapReduce能正常运行。

mapreduce-example.jar findfof bestfof

2. Oozie：工作流程是通过配置文件进行配置

worflow.xml 参考examples里面的皮遏制

oorzie运行workflow是通过MapReduce运行，所以workflow的配置文件需要先放到hdfs上

如何定义工作流并运行工作流（以MapReduce为例）：

（1）先在本地文件系统定义好配置

（2）编写两个配置

job.properties workflow.xml

（3）创建lib目录，将mapreduce jar包放进去

job.properties

YANR 的调度器的队列

yarn调度，其实就是讲mr job放到某个queue上运行

队列：

（1）FIFO

（2）Fair公平队列：先尽可能将资源分配给某个Job

比如只有一个job时，拥有所有资源，当有另一个job要执行，则会分出部分资源

（3）容量队列：多个FIFO队列，每个队列有资源占有率

往YARN上提交Job，根据Job的资源要求安排合适队列运行job任务。

3. 将配置上传到hdfs

4. 运行

bin/oozie job -oozie http://beifeng-hadoop-02:11000/oozie -config /opt/datas/oozie-apps/fof-mr/job.properties -run

补充概念：

DAG有向无环图：

Oozie workflow

storm 数据流

spark 本质核心 DAG

1）Map Reduce action

2） shell action

Oozie执行具有本地特性的shell脚本:

引子shell脚本

真正要执行的shell脚本，要在哪台服务器上，引子shell脚本就放在哪台服务器上。

password='beifeng'

/usr/bin/expect

切割日志

3） hive action

4）sqoop action

《OD学Oozie》20160807Oozie的更多相关文章

《OD学oozie》20160813
一.日志收集项目案例 1. oozie中依赖jar包在工作目录下创建lib目录,上传依赖包的lib目录下 2. 作业将日志收集与处理项目案例使用oozie的workflow执行 3. coordi ...
《OD学Hive》第六周20160730
一.Hive的JDBC连接日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》第二周0703
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...
《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
《OD学storm》20160827
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...
《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
《OD学HBase》20160820
一.案例微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户查看关注用户的微博内容微博数据存储: 响应时间秒级无延迟 (1)mysql分布式 (2)hbase数据库使用HBase数 ...
《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...

随机推荐

CoreData (表结构变化处理)
引言: Core Data 是 iOS 3.0 以后引入的数据持久化解决方案,其原理是对SQLite的封装,是开发者不需要接触SQL语句,就可以对数据库进行的操作. 其编码方式和原理结构方面较为特殊, ...
疑难杂症rendering(对角线上的线)
postprocess全屏特效对角线有条线明显和buffer有关因为线由小的东西组成就像之前没清空buffer产生的马赛克 beginscene时 clearmask 设0 ---------- ...
xp/2003开关3389指令
开启3389: @echo offtitle 开启3389clsrem 开启3389reg add "HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\ ...
IE8下兼容rgba颜色的半透明背景
在工作中做一个图片半透明遮罩时发现在IE8下不兼容一查再知道IE8不支持rgba颜色,再搜搜兼容性方法,没想到这么快就解决了. 先说说rgba的含义: r代表red,g代表green,b代表blue ...
Codis集群的搭建与使用
一.简介 Codis是一个分布式的Redis解决方案,对于上层的应用来说,连接Codis Proxy和连接原生的Redis Server没有明显的区别(不支持的命令列表),上层应用可以像使用单机的Re ...
SELINUX设为Disable 影响java SSH工具包Jsch 0.1.49.jar的一个案例
最近项目中遇到一个典型事件,当RHEL 的SELINUX设为DISABLE时使用JAVA的Jsch 库调用SSH命令时将随机返回空字符串,我使用的版本是0.1.49,最新版本0.1.51未测试. 关 ...
UVA 624 CD（01背包+输出方案）
01背包,由于要输出方案,所以还要在dp的同时,保存一下路径. #include <iostream> #include <stdio.h> #include <stri ...
jQuery实现表格隔行换色且感应鼠标高亮行变色
jQuery插件实现表格隔行换色且感应鼠标高亮行变色 http://www.jb51.net/article/41568.htm jquery 操作DOM的基本用法分享http://www.jb51. ...
github and SourceTree初步使用
1.建立连接(一次就行了) 输入你的github名字 2.创建仓库 3.下载仓库这个时候打开SouceTree就可以看到之前创的仓库了点击克隆,创建一个文件夹,讲路径设置好这时候查看本地列表就会 ...
HDU 1217 Arbitrage (Floyd)
Arbitrage http://acm.hdu.edu.cn/showproblem.php?pid=1217 Problem Description Arbitrage is the use of ...

《OD学Oozie》20160807Oozie

《OD学Oozie》20160807Oozie的更多相关文章

随机推荐

热门专题