解读分布式调度平台Airflow在华为云MRS中的实践

摘要：Airflow是一个使用Python语言编写的分布式调度平台，通过DAG（Directed acyclic graph 有向无环图）来管理任务。

本文分享自华为云社区《分布式调度平台Airflow在华为云MRS中的实践》，作者：啊喔YeYe 。

介绍

Airflow是一个使用Python语言编写的分布式调度平台，通过DAG（Directed acyclic graph 有向无环图）来管理任务，不需要知道业务数据的具体内容，设置任务的依赖关系即可实现任务调度。其平台拥有和Hive、Presto、MySQL、HDFS、Postgres等数据源之间交互的能力，并且提供了hook，使其拥有很好地扩展性。

MapReduce服务提供租户完全可控的企业级大数据集群云服务，可轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。Airflow对接MapReduce服务后，可依靠Airflow平台提供的命令行界面和一个基于Web的用户界面，可以可视化管理依赖关系、监控进度、触发任务等

环境准备

在华为云购买弹性云服务器ECS，用于安装运行Airflow，并绑定弹性公网IP，用于访问公网安装Airflow服务
已开通MRS 3.x普通集群
弹性云服务器ECS的虚拟私有云和安全组需与MRS普通集群一致，其公共镜像建议选择CentOS 8.2 64bit

安装Airflow

1. 登录已购买的Linux弹性云服务器，执行以下命令升级pip版本

pip3 install --upgrade pip==20.2.4

2. 安装Airflow以及创建登录Airflow的admin用户

使用vim 脚本名.sh新建脚本，写入如下内容并保存，使用sh 脚本名.sh执行脚本，执行完成后会创建登录Airflow的admin用户，并输入密码完成创建。本脚本会完成Airflow的安装以及创建登录Airflow的admin用户。脚本含义见注释。

# airflow needs a home, ~/airflow is the default,

# but you can lay foundation somewhere else if you prefer

# (optional)

export AIRFLOW_HOME=~/airflow 

AIRFLOW_VERSION=2.0.1

PYTHON_VERSION="$(python3 --version | cut -d " " -f 2 | cut -d "." -f 1-2)"

# For example: 3.6

CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt"

# For example: https://raw.githubusercontent.com/apache/airflow/constraints-2.0.1/constraints-3.6.txt

pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}" 

# initialize the database

airflow db init 

airflow users create \

--username admin \

--firstname Peter \

--lastname Parker \

--role Admin \

--email spiderman@superhero.org

3.执行以下命令启动Airflow WebServer

airflow webserver --port 8080 -D

4. 执行以下命令启动Airflow Scheduler

airflow scheduler -D

5. 访问Airflow WebUI

在本地浏览器输入“http://ECS弹性IP:8080”网址，进入Airflow WebUI登录界面

登录之后：

提交spark作业至MRS

1. 参考安装客户端在运行Airflow的弹性云服务器ECS上安装MRS客户端

例如安装客户端到/opt/client目录下，安装命令:

sh ./install.sh /opt/client/ -o chrony

2. 在安装Airflow的目录下新建目录"dags"

如Airflow安装目录是“/root/airflow”，新建目录“/root/airflow/dags”

3. 新建提交Spark作业的Python脚本

在新建目录下使用vim 脚本名.py新建python脚本并保存，脚本内容如下:

from datetime import timedelta

from airflow import DAG

from airflow.operators.bash import BashOperator

from airflow.operators.dummy import DummyOperator

from airflow.utils.dates import days_ago 

args = {

'owner': 'airflow',

} 

dag = DAG(

dag_id='spark-pi',

default_args=args,

start_date=days_ago(200),

schedule_interval='@once',

dagrun_timeout=timedelta(minutes=300),

tags=['spark'],

) 

run_this = BashOperator(

task_id='run_on_yarn',

# 其他组件命令参考MRS组件开发指南，将任务提交或运行命令替换到bash_command变量

bash_command='source /opt/client/bigdata_env;spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/client/Spark2x/spark/examples/jars/spark-examples_2.11-2.4.5-hw-ei-302023.jar 10',

#bash_command='echo "run"; echo 0 >> /tmp/test',

dag=dag,

) 

run_this

4. 登录Airflow WebUI，单击“spark-pi”左侧的开关按钮，然后单击右侧的三角按钮运行

5. 登录Manager页面，选择“集群 > 服务 > Yarn > 概览”

6. 步单击“ResourceManager WebUI”后面对应的链接，进入Yarn的WebUI页面，查看Spark任务是否运行

点击关注，第一时间了解华为云新鲜技术~