本文上接《Azkaban 3.73.1 集群搭建(Multiple Executor)》,对Azkaban的使用做简单说明

目录

简介

AzkabanWebServer中的三个主要元素:project、job、flow

  • project:工程/项目
  • job:任务,project中包含的需要执行的任务
  • flow:工作流,由各个job之间的依赖关系所组成

1. 登录

  1. 因为使用了SSl所以是 https
  2. host为启动WebServer服务的机器ip
  3. port为azkaban-web/conf/azkaban.properties中配置的jetty.ssl.port=8443
  4. 账号密码为 azkaban-web/conf/azkaban-users.xml 中配置的

2. 创建工程

首页四个重要的菜单

菜单 备注
projects 工程,最重要的部分,所有flows都在工程中运行
scheduling 显示定时任务
executing 显示当前运行的任务
history 显示历史运行任务

在“projects”菜单下点击“Create Project”完成创建工程,注意请使用英文,中文会报错

3. 创建job

  • web页面中并没有提供创建job的功能
  • 需要自行创建以.job为扩展名的文件,并将创其通过web页面上传,才能形成job任务
  • 所有的job都需要有一个知道他们如何去执行的type,附:Azkaban Jobtypes 文档
  • .job文件中常用的参数,如下

    参数 备注
    dependencies 定义依赖关系,参数值为该job依赖的任务文件名(不包括.job后缀)
    如果依赖多个,则以逗号分隔,如:job2,job5
    retries 任务失败时自动重启的次数
    retry.backoff 每一次任务尝试重启时之间等待的毫秒数
    working.dir 重新指定任务执行的工作目录,默认为目前正在运行的任务的工作目录
    failure.emails 任务失败时的邮件提醒设置,以逗号分隔多个邮箱
    success.emails 任务成功时的邮件提醒设置,以逗号分隔多个邮箱
    notify.emails 任务无论失败还是成功都邮件提醒设置,以逗号分隔多个邮箱

3.1 创建 .job 文件

使用 command type 举例:

job1

# 文件名:test_1.job
type=command
command=echo "This is a test job, name is test_1."
retries=5

job2

# 文件名:test_2.job
type=command
dependencies=test_1
retries=5
command=echo "This is a test job, name is test_2."
command.1=pwd
command.2=ls –l /tmp

job3

# 文件名:test_3.job
type=command
dependencies=test_1
retries=5
command=echo "This is a test job, name is test_3."
command.1=sh /opt/azkaban/job/test_script.sh

注意:/opt/azkaban/job/test_script.sh 为事先在服务器上写好的脚本,且强烈建议使用这种形式,后期维护时,只需修改此文件内容就可以了

job4

# 文件名:test_4.job
type=command
dependencies=test_2,test_3
retries=5
command=echo "This is a test job, name is test_4."
command.1=netstat -ntlp

job5

# 文件名:test_5.job
type=command
dependencies=test_4
retries=5
command=echo "This is a test job, name is test_5."
command.1=whoami

3.2 打包

压缩所有.job文件到同一个.zip文件中

  • 必须是zip压缩文件,当前仅支持zip
  • 所有文件必须在压缩包的根目录中,没有子目录

3.3 创建Flow

  • 上传打包好的zip文件,进而生成一个Flow
  • Flow的名称为最后一个没有依赖的.job文件的文件名

选择工程,直接点击“工程名”

工程页面的三个菜单

菜单 备注
Flows 工作流程,有多个job组成
Permissions 权限管理
Project Logs 工程日志

工程页面的三个按钮

按钮 备注
Delete Project 删除该工程
Upload 上传zip文件,进而生成Flow
Download 下载工程

点击“Upload”上传zip

3.4 运行Flow

Flow的三个操作按钮

按钮 备注
Execute Flow 配置或执行Flow
Executions Flow的执行记录
Summary Flow的总结

点击“Execute Flow”配置执行该流程

Execute Flow 的几个菜单

菜单 备注
Flow view 流程视图,“右键”可以禁用/启用某些job
Notification 定义任务成功或者失败是否发送邮件
Failure Options 定义一个job失败,剩下的job怎么执行
Concurrent 并行任务执行设置
Flow Parametters 参数设置

点击左下方的“Schedule”可设置定时执行,下方绿色字体为执行时间的提示

点击右下方“Execute”执行该Flow

“Continue”之后可以直接看到Flow的运行结果,“绿色”成功、“蓝色”执行中、“红色”失败

可查看每一个job的运行日志,如果有报错,也可以直接查看错误日志

首次运行是可能的报错

ERROR [ExecutorServlet] [Azkaban] executor became inactive before setting up the flow 1
azkaban.executor.ExecutorManagerException: executor became inactive before setting up the flow 1


需要手动去激活一下 executor,方式如下:

curl http://${executorHost}:${executorPort}/executor?action=activate

附录

参考

  1. 官方:https://azkaban.github.io/azkaban/docs/latest/#creating-flows
  2. https://juejin.im/post/5c8a289151882504715038cc
  3. https://www.jianshu.com/p/01188607a794
  4. http://www.jobplus.com.cn/article/getArticleDetail/51461

例子源码

https://github.com/remainsu/azkaban_job

Azkaban 3.73.1 使用简介的更多相关文章

  1. Azkaban Flow 2.0 使用简介

    官方建议使用Flow 2.0来创建Azkaban工作流,且Flow 1.0将被弃用 目录 目录 一.简单的Flow 1. 新建 flow20.project 文件 2. 新建 .flow 文件 3. ...

  2. Azkaban 3.73.1 集群搭建(Multiple Executor)

    一.简介 Azkaban是LinkedIn开源的任务调度框架,采用java编写 Azkaban功能和特点: 任务的依赖处理 任务监控,失败告警 任务流的可视化 任务权限管理 Azkaban具有轻量可插 ...

  3. Azkaban Condition Flow (条件工作流) 使用简介

    本文上接<Azkaban Flow 2.0 使用简介>,对Azkaban Condition Flow (条件工作流) 做简单介绍 目录 目录 条件工作流 介绍 作用 使用方式 支持的运算 ...

  4. Storm 实战:构建大数据实时计算

    Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部 ...

  5. 【原创】大数据基础之Azkaban(1)简介、源代码解析

    Azkaban3.45 一 简介 1 官网 https://azkaban.github.io/ Azkaban was implemented at LinkedIn to solve the pr ...

  6. Azkaban 简介

    本文简单介绍一下Azkaban及其特点.azkaban是一个开源的任务调度系统,用于负责任务的调度运行(如数据仓库调度),用以替代linux中的crontab. 一.Azkaban是什么? 1.1 A ...

  7. Azkaban简介及使用

    一.Azkaban概述 Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题. 我们有需要按顺序运行的工作,从ETL工作到数据分析产品. 特点: 1)给用 ...

  8. Azkaban简介和使用

    概述 为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序.hive脚本等 l 各任务单元之间存在时间先后及前后依 ...

  9. Azkaban学习之路(一)—— Azkaban 简介

    一.Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元(如数据收集.数据清洗.数据存储.数据分析等)组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流.复杂的工作流 ...

随机推荐

  1. 你所不知道的 Kindle - 阅读微信公众号文章

    Kindle 是一款非常优秀的阅读设备,它为我们提供了非常舒服的阅读体验,并且配合强大的亚马逊图书资源,应该是目前最好的阅读设备之一.Kindle 在已有的成就下还一直在努力提升用户体验.为中国用户开 ...

  2. Swift是一个提供RESTful HTTP接口的对象存储系统,目的是为了提供一个和AWS S3竞争的服务

    Swift是一个提供RESTful HTTP接口的对象存储系统,最初起源于Rackspace的Cloud Files,目的是为了提供一个和AWS S3竞争的服务. Swift于2010年开源,是Ope ...

  3. MySql 5.7 重置root密码

    一.以安全模式登录 # Stop MySQL sudo service mysql stop # Make MySQL service directory. sudo mkdir -p /var/ru ...

  4. Windows PowerShell 集成脚本环境 (ISE)

    应用场景 有时会遇到一些这样的报错 Exception calling "SetData" with "2" argument(s): "Type ' ...

  5. windows程序中拷贝文件的选择

    最近需要在Windows下拷贝大量小文件(数量在十万级别以上).写了些拷贝文件的小程序,竟然发现不同的选择,拷贝的速度有天壤之别! 现有这样的测试数据:1500+小文件,总大小10M左右.现用不同方法 ...

  6. sql执行分页查询

    declare  @PageSize int,@PageIndex int;set @PageSize=5;set @PageIndex=2;WITH Pagination AS(  SELECT * ...

  7. Win8 Metro(C#)数字图像处理--2.35图像肤色检测算法

    原文:Win8 Metro(C#)数字图像处理--2.35图像肤色检测算法  [函数名称] 肤色检测函数SkinDetectProcess(WriteableBitmap src) [算法说明] ...

  8. 【shell】编译脚本

    #!/bin/bash #设置环境变量 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=${JAVA_HOME}/ ...

  9. WPF里DataGrid分页控件

    1.主要代码: using System; using System.Collections.ObjectModel; using System.Windows; using System.Windo ...

  10. 操作XML文档遇到的XMLNS问题及解决方法 (C# 和 PHP)

    原文:操作XML文档遇到的XMLNS问题及解决方法 (C# 和 PHP) 不管是用 PHP 还是 C#, 在操作 XML 的时候我们除了一个节点一个节点去取值之外, 还有一个非常方便的表达式, 就是 ...