概括

Azkaban是一个非常轻量的开源调度框架，适合二次开发，但是无法直接用于生产环境，存在致命缺陷（比如AzkabanWebServer是单点，1年多时间没有修复），在一些情景下的行为简单粗暴（比如重启AzkabanExecutorServer会导致该server上正在运行的所有流程fail），很多时候需要人工干预，要达到生产环境的可靠性级别，至少大量二次开发，并且官方代码更新很快，合并代码有很大冲突风险，适合于一些对可靠性要求不高可以快速上手的小公司，不建议使用；

Oozie作为apache顶级项目，使用广泛，功能丰富，代码质量高，成熟可靠，代码和部署相对复杂一点，建议使用；

	Oozie	Azkaban
版本	4.3	3.45
开发语言	Java	Java
任务配置	Xml文件（存放在hdfs） Properties文件	Properties文件（打成Zip，上传后存放在DB）
添加任务	hdfs上传Xml文件后client通过Properties文件提交	web上传Zip AJAX上传Zip
任务运行	Yarn	AzkabanExecutorServer执行
分配粒度	任务	工作流
失败重试	支持	支持
扩展性	好，支持服务扩展、任务扩展	好，支持插件化、任务扩展
接口	命令行 Java API	网页 AJAX API
支持任务类型	HDFS、MapReduce、Java、Shell、SSH、Pig、Hive、E-Mail、Sub-Workflow、Sqoop、Distcp	Shell、Java 其他需要插件支持
部署	相对复杂	简单
GUI	开源Hue提供GUI方式编辑流程定义	不提供GUI编辑流程定义
可靠性	可靠通过Zookeeper实现HA	不可靠 AzkabanWebServer是单点，17年3月社区就提到该问题，但1年多过后还没有修复 https://github.com/azkaban/azkaban/issues/952
重启影响	无	重启AzkabanExecutorServer会导致该server上正在运行的所有流程fail，还可能需要刷新executors状态
代码质量	非常好	一般，并且代码中很多TODO
代码更新	慢	很快，小版本很多
任务重复运行风险	无	有
SLA	支持	支持
监控	web-services API instrumentation log	不支持
流程状态回调	JMS 或 oozie.coord.action.notification.url oozie.wf.workflow.notification.url oozie.wf.action.notification.url	不支持

【原创】大数据基础之Oozie vs Azkaban的更多相关文章

【原创】大数据基础之Oozie（3）Oozie从4.3升级到5.0
官方文档如下: http://oozie.apache.org/docs/5.0.0/AG_OozieUpgrade.html 这里写的比较简单,大概过程如下:1 下载5.0代码并编译:2 解压5.0 ...
【原创】大数据基础之Oozie（1）简介、源代码解析
Oozie4.3 一简介 1 官网 http://oozie.apache.org/ Apache Oozie Workflow Scheduler for Hadoop Hadoop生态的工作流调 ...
【原创】大数据基础之Oozie（2）使用
命令行 $ oozie help 1 导出环境变量 $ export OOZIE_URL=http://oozie_server:11000/oozie 否则都需要增加 -oozie 参数,比如 $ ...
【原创】大数据基础之Oozie（4）oozie使用的spark版本升级
oozie默认使用的spark是1.6,一直没有升级,如果想用最新的2.4,需要自己手工升级首先看当前使用的spark版本的jar # oozie admin -oozie http://$oozi ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...
【原创】大数据基础之Benchmark（2）TPC-DS
tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction pr ...
大数据调度工具oozie详细介绍
背景之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选 ...

随机推荐

【原创】分布式事务之TCC事务模型
引言在上篇文章<老生常谈--利用消息队列处理分布式事务>一文中留了一个坑,今天来填坑.如下图所示如果服务A和服务B之间是同步调用,比如服务C需要按流程调服务A和服务B,服务A和服务B要 ...
TensorFlow基础
TensorFlow基础 SkySeraph 2017 Email:skyseraph00#163.com 更多精彩请直接访问SkySeraph个人站点:www.skyseraph.com Over ...
JQuery 获取select 的value值和文本值
<select name="month" id="selMonth"> <option value="1">一 ...
Mybatis逆向工程 —— ResultMaps collection already contains value for ***
报错提示: Result Maps collection already contains value for ***. 遭遇场景: maven+ssm 项目中,采用了mybatis的逆向工程生成 p ...
磁盘IO的性能指标阻塞与非阻塞、同步与异步 I/O模型
磁盘IO的性能指标 - 蝈蝈俊 - 博客园https://www.cnblogs.com/ghj1976/p/5611648.html 阻塞与非阻塞.同步与异步 I/O模型 - 蝈蝈俊.net - C ...
关于 i++ 与 ++i
首先关于这个真的不想在看资料了,自己都背过了,++i 和 i++,在单独使用时,就是 i=i+1. a = ++i 相当于 i=i+1; a = i; (先i = i + 1,再使用i的 ...
6-3 Articles(a, an, some, the)
1 Definite and Indifinite articles Indefinite articles: a, an, some Definite article: the 2 a and t ...
解决刷新页面vuex store中数据丢失的问题
**问题背景:**页面刷新后,vuex中的数据丢失.这是因为:js代码是运行在内存中的,代码运行时的所有变量.函数也都是保存在内存中的.进行刷新页面的操作,以前申请的内存被释放,重新加载脚本代码,变量 ...
Word Representations 词向量
常用的词向量方法word2vec. 一.Word2vec 1.参考资料: 1.1) 总览 https://zhuanlan.zhihu.com/p/26306795 1.2) 基础篇: 深度学习wo ...
基于JavaCv并发读取本地视频流并提取每帧32位dhash特征
1.读取本地视频流,pom依赖依赖于 org.bytedeco下的javacv/opencv/ffmpeg 包 <dependency> <groupId>org.byted ...

【原创】大数据基础之Oozie vs Azkaban

概括

【原创】大数据基础之Oozie vs Azkaban的更多相关文章

随机推荐

热门专题