海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)
本系列文章是DolphinScheduler由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。
**祝开卷有益。 **
本系列教程基于 DolphinScheduler 2.0.5 做的优化。(稳定版推荐使用3.1.9)
先抛出问题
1.场景描述
工作流 A 正在运行,里面有很多节点,依赖关系比较复杂。凌晨用户接到报警,a 节点失败了,此时其他分支的任务还在运行。此时工作流是不会是失败的,需要等待其他分支的任务运行结束,整个工作流才会失败。
失败的任务:是失败状态且重试次数用完了。
2.目前的处理流程
目前的做法是,先 kill 工作流,等待工作流变成失败状态,然后再点击恢复失败按钮,即可把失败的节点重新拉起来。
画外音:kill 工作流我也做了优化,后面会有文章介绍,kill之后,工作流会变成失败状态,这样做是为了可以恢复失败。
3.困惑
这种做法会影响正在运行的任务,强制把正在跑的任务 kill 掉,对一些运行时间比较久的任务来说,会降低执行效率。跑的好好的,被干掉了,恢复失败,又得重新跑。
这非常不划算。
优化建议:如何在不停止工作流的情况下,单独把失败的节点重新拉起来呢?
解决方案
后端优化:
分析了工作流启动、停止、恢复失败等操作类型 Master 和 Worker 的原理,打算新增一个操作类型、命令类型枚举值:RUN_FAILED_ONLY。
优化后的大致流程如下:
用户在页面上点击按钮,提交 executeType = RUN_FAILED_ONLY、processInstanceId=xxxx的请求。
API服务收到请求,判断是 RUN_FAILED_ONLY 操作,就封装一个 StateEventChangeCommand 命令,进行RPC请求。
Master服务的 StateEventProcessor 监听到命令,提交给 StateEventResponseService ,它负责找到对应的工作流 WorkflowExecuteThread ,然后把这个stateEvent 给这个 WorkflowExecuteThread.
WorkflowExecuteThread处理 stateEvent,判断这个 stateEvent 的 StateEventType 是 RUN_FAILED_ONLY_EVENT ,进行下面的处理:
找到改工作流失败且重试次数用完的任务列表,然后依次处理它们的执行记录(标记为失效,从失败列表移除,添加到待提交队列),最后提交到等待队列。
后端流程结束。
前端页面优化:
比较简单:新增一个按钮,文案是【重新失败节点】,在工作流列表上展示,用户可以点击。
源码
其中,新增了三个枚举类的值:
org.apache.dolphinscheduler.api.enums.ExecuteType
RUN_FAILED_ONLY
org.apache.dolphinscheduler.common.enums.CommandType
RUN_FAILED_ONLY(44, "run failed only");
org.apache.dolphinscheduler.common.enums.StateEventType
RUN_FAILED_ONLY_EVENT(4, "run failed only event");
几个关键步骤的代码,为了方便查看,上下文的代码、涉及改动的方法也会贴出来。
提示:序号对应上面的流程。
② org.apache.dolphinscheduler.api.service.impl.ExecutorServiceImpl#execute
switch (executeType) {
case REPEAT_RUNNING:
result = insertCommand(loginUser, processInstanceId, processDefinition.getCode(), processDefinition.getVersion(), CommandType.REPEAT_RUNNING, startParams);
break;
case RECOVER_SUSPENDED_PROCESS:
result = insertCommand(loginUser, processInstanceId, processDefinition.getCode(), processDefinition.getVersion(), CommandType.RECOVER_SUSPENDED_PROCESS, startParams);
break;
// 新增 9-11 行代码
case RUN_FAILED_ONLY:
result = sendRunFailedOnlyMsg(processInstance, CommandType.RUN_FAILED_ONLY);
break;
case START_FAILURE_TASK_PROCESS:
result = insertCommand(loginUser, processInstanceId, processDefinition.getCode(), processDefinition.getVersion(), CommandType.START_FAILURE_TASK_PROCESS, startParams);
break;
case STOP:
if (processInstance.getState() == ExecutionStatus.READY_STOP) {
putMsg(result, Status.PROCESS_INSTANCE_ALREADY_CHANGED, processInstance.getName(), processInstance.getState());
} else {
result = updateProcessInstancePrepare(processInstance, CommandType.STOP, ExecutionStatus.READY_STOP);
}
break;
case PAUSE:
if (processInstance.getState() == ExecutionStatus.READY_PAUSE) {
putMsg(result, Status.PROCESS_INSTANCE_ALREADY_CHANGED, processInstance.getName(), processInstance.getState());
} else {
result = updateProcessInstancePrepare(processInstance, CommandType.PAUSE, ExecutionStatus.READY_PAUSE);
}
break;
default:
logger.error("unknown execute type : {}", executeType);
putMsg(result, Status.REQUEST_PARAMS_NOT_VALID_ERROR, "unknown execute type");
break;
}
sendRunFailedOnlyMsg 方法的逻辑,封装 stateEventChangeCommand,提交 RPC 请求。
/**
* send msg to master, run failed only
*
* @param processInstance process instance
* @param commandType command type
* @return update result
*/
private Map<String, Object> sendRunFailedOnlyMsg(ProcessInstance processInstance, CommandType commandType) {
Map<String, Object> result = new HashMap<>();
String host = processInstance.getHost();
String address = host.split(":")[0];
int port = Integer.parseInt(host.split(":")[1]);
StateEventChangeCommand stateEventChangeCommand = new StateEventChangeCommand(
processInstance.getId(), 0, processInstance.getState(), processInstance.getId(), 0,StateEventType.RUN_FAILED_ONLY_EVENT
);
stateEventCallbackService.sendResult(address, port, stateEventChangeCommand.convert2Command());
putMsg(result, Status.SUCCESS);
return result;
}
这里也给 StateEventChangeCommand 家了一个状态类型的字段,对应枚举类:StateEventType
方便下游判断状态。
查看下面 ③ 处的代码,用这个状态赋值给 stateEvent 的 type。
③ org.apache.dolphinscheduler.server.master.processor.StateEventProcessor#process 用上面 ② 处的 StateEventType,赋值给 stateEvent 的 type,然后提交给 stateEventResponseService 的 BlockingQueueeventQueue 队列。
@Override
public void process(Channel channel, Command command) {
Preconditions.checkArgument(CommandType.STATE_EVENT_REQUEST == command.getType(), String.format("invalid command type: %s", command.getType()));
StateEventChangeCommand stateEventChangeCommand = JSONUtils.parseObject(command.getBody(), StateEventChangeCommand.class);
StateEvent stateEvent = new StateEvent();
stateEvent.setKey(stateEventChangeCommand.getKey());
if (stateEventChangeCommand.getSourceProcessInstanceId() != stateEventChangeCommand.getDestProcessInstanceId()) {
stateEvent.setExecutionStatus(ExecutionStatus.RUNNING_EXECUTION);
} else {
stateEvent.setExecutionStatus(stateEventChangeCommand.getSourceStatus());
}
stateEvent.setProcessInstanceId(stateEventChangeCommand.getDestProcessInstanceId());
stateEvent.setTaskInstanceId(stateEventChangeCommand.getDestTaskInstanceId());
// TODO 修改
StateEventType stateEventType = stateEventChangeCommand.getStateEventType();
if (stateEventType != null){
stateEvent.setType(stateEventType);
}else {
StateEventType type = stateEvent.getTaskInstanceId() == 0 ? StateEventType.PROCESS_STATE_CHANGE : StateEventType.TASK_STATE_CHANGE;
stateEvent.setType(type);
}
logger.info("received command : {}", stateEvent);
stateEventResponseService.addResponse(stateEvent);
}
StateEventResponseWorker 线程一直扫描这个队列,拿到 stateEvent,找到要处理的工作流对应的 WorkflowExecuteThread 线程,把这个事件提交给 WorkflowExecuteThread 线程。
/**
* task worker thread
*/
class StateEventResponseWorker extends Thread {
@Override
public void run() {
while (Stopper.isRunning()) {
try {
// if not task , blocking here
StateEvent stateEvent = eventQueue.take();
persist(stateEvent);
} catch (InterruptedException e) {
logger.warn("persist task error", e);
Thread.currentThread().interrupt();
break;
}
}
logger.info("StateEventResponseWorker stopped");
}
}
private void persist(StateEvent stateEvent) {
try {
if (!this.processInstanceMapper.containsKey(stateEvent.getProcessInstanceId())) {
writeResponse(stateEvent, ExecutionStatus.FAILURE);
return;
}
WorkflowExecuteThread workflowExecuteThread = this.processInstanceMapper.get(stateEvent.getProcessInstanceId());
workflowExecuteThread.addStateEvent(stateEvent);
writeResponse(stateEvent, ExecutionStatus.SUCCESS);
} catch (Exception e) {
logger.error("persist event queue error, event: {}", stateEvent, e);
}
}
④WorkflowExecuteThread 内部循环扫描事件列表。
private void handleEvents() {
while (!this.stateEvents.isEmpty()) {
try {
StateEvent stateEvent = this.stateEvents.peek();
if (stateEventHandler(stateEvent)) {
this.stateEvents.remove(stateEvent);
}
} catch (Exception e) {
logger.error("state handle error:", e);
}
}
}
stateEventHandler 处理 RUN_FAILED_ONLY_EVENT 类型的事件,处理方法是:runFailedHandler
private boolean stateEventHandler(StateEvent stateEvent) {
logger.info("process event: {}", stateEvent.toString());
if (!checkStateEvent(stateEvent)) {
return false;
}
boolean result = false;
switch (stateEvent.getType()) {
case RUN_FAILED_ONLY_EVENT:
result = runFailedHandler(stateEvent);
break;
case PROCESS_STATE_CHANGE:
result = processStateChangeHandler(stateEvent);
break;
case TASK_STATE_CHANGE:
result = taskStateChangeHandler(stateEvent);
break;
case PROCESS_TIMEOUT:
result = processTimeout();
break;
case TASK_TIMEOUT:
result = taskTimeout(stateEvent);
break;
default:
break;
}
if (result) {
this.stateEvents.remove(stateEvent);
}
return result;
}
runFailedHandler 的内部逻辑如下:找到改工作流失败且重试次数用完的任务列表,然后依次处理它们的执行记录(标记为失效,从失败列表移除,添加到待提交队列),最后提交到等待队列。
private boolean runFailedHandler(StateEvent stateEvent) {
try {
logger.info("process:{} will do {}", processInstance.getId(), stateEvent.getExecutionStatus());
// find failed tasks with max retry times and init these tasks
List<Integer> failedList = processService.queryTaskByProcessIdAndStateWithMaxRetry(processInstance.getId(), ExecutionStatus.FAILURE);
logger.info("run failed task size is : {}", failedList.size());
for (Integer taskId : failedList) {
logger.info("run failed task id is : {}", taskId);
TaskInstance taskInstance = processService.findTaskInstanceById(taskId);
taskInstance.setFlag(Flag.NO);
// remove it from errorTaskList
errorTaskList.remove(Long.toString(taskInstance.getTaskCode()));
processService.updateTaskInstance(taskInstance);
// submit current task nodes
if (readyToSubmitTaskQueue.contains(taskInstance)) {
continue;
}
logger.info("run failed task ,submit current task nodes : {}", taskInstance.toString());
addTaskToStandByList(taskInstance);
}
submitStandByTask();
// updateProcessInstanceState();
} catch (Exception e) {
logger.error("process only run failed task error:", e);
}
return true;
}
最终效果
再次回到文章开头的场景:
工作流 A 正在运行,里面有很多节点,依赖关系比较复杂。凌晨用户接到报警,a 节点失败了,此时其他分支的任务还在运行。
此时用户可以直接点击【重新拉起失败任务】按钮,失败的任务就会重新进入等待队列,后续流程就像任务正常运行一样,也会继续拉起下游任务。
画外音:本次优化简化了失败任务运维的复杂度,提高了效率。
作者从1.x开始使用海豚调度,那是还叫做 Easy Scheduler,是一个忠实用户,我们基于 2.x版本做了很多内部的改造,后续会分享出来,同样社区也推荐大家使用3.1.9版本,这是相对比较稳定的版本。
本文由 白鲸开源 提供发布支持!
海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)的更多相关文章
- kube-scheduler 调度调优
文章转载自:https://www.kuboard.cn/learning/k8s-advanced/schedule/tuning.html kube-scheduler 是 Kubernetes ...
- SQL Server 性能调优 之运行计划(Execution Plan)调优
运行计划中的三种 Join 策略 SQL Server 存在三种 Join 策略:Hash Join,Merge Join,Nested Loop Join. Hash Join:用来处理没有排过序/ ...
- hadoop MapReduce - 从作业、任务(task)、管理员角度调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优. 一 应用程序编写规范 1.设置Combiner 对于一大批MapReduce ...
- Spark 调优
资源调优 (1). 在部署 spark 集群中指定资源分配的默认参数 在 spark 安装包的 conf 下的 spark-env.sh SPARK_WORKER_CORES SPARK_WORKER ...
- PHP 性能分析第三篇: 性能调优实战
注意:本文是我们的 PHP 性能分析系列的第三篇,点此阅读 PHP 性能分析第一篇: XHProf & XHGui 介绍 ,或 PHP 性能分析第二篇: 深入研究 XHGui. 在本系列的 ...
- Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)
1.课程环境 本课程涉及的技术产品及相关版本: 技术 版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3. ...
- 【Spark】Sparkstreaming-性能调优
Sparkstreaming-性能调优 Spark Master at spark://node-01:7077 sparkstreaming 线程 数量_百度搜索 streaming中partiti ...
- Spark的job调优(1)
本文翻译之cloudera的博客,本系列有两篇,第二篇看心情了 概论 当我们理解了transformation,action和rdd后,我们就可以写一些基础的spark的应用了,但是如果需要对应用进行 ...
- Spark性能优化:shuffle调优
调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO.序列化.网络数据传输等操作.因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 ...
- JVM 调优之 Eclipse 启动调优实战
本文是我12年在学习<深入理解Java虚拟机:JVM高级特性与最佳实践>时,做的一个 JVM 简单调优实战笔记,版本都有些过时,不过调优思路和过程还是可以分享给大家参考的. 环境基础配置 ...
随机推荐
- js沙雕排序之睡眠排序&随机排序
1.睡眠排序,只要睡的时间多少就可以排序出来不要在乎时间多少 var arr=[4,77,741,41,142,52,244]; var sleepSort=function(arr,callback ...
- npm 发布自己组件包
npm 发布自己组件包 发布到 npm 上 首先创建自己的npm账号 npm init npm install npm uninstall npm config edit // 编辑 npm conf ...
- 关于Collection和Map的笔记
此二者在日常编程中,用得太频繁,所以多少有必要记录下,便于需要的时候翻翻. 但鉴于它们的后代太多,逐一牢记有有点难度,所以学习上应该把握以下几点即可: 含义 重要区别 常用的实现类和工具 关注要点:有 ...
- [好物推荐] Rime的86五笔输入法配置
一个比较好用的Rime五笔输入法配置文件, 个人已经使用很多年了. 官网: https://github.com/KyleBing/rime-wubi86-jidian 安装方式: /home/xxx ...
- ARM 命名规则和ARM 版本
结论:我们所接触到提到的命名规则,应该分成两类. 基于ARM Architecture版本的"指令集架构"命名规则:例如armv6, armv7, armv7s, arm64 等系 ...
- do{}while0的两个作用
1.作为一种防止宏错误展开的一种防御性写法. 相信很多人都知道,这里不展开了. 2.实现 goto 语句的功能,一次break就可以跳出到后续语句. do { if(...) break; ... } ...
- 开源日志组件Sejil--附带日志管理界面
1.开源日志组件源码: https://github.com/alaatm/Sejil 2.下载下来发现里面对于不同的.net core 版本的配置提供了对应的示例 .Net Core 3.1 Pr ...
- 基于Mock.js,使用C#生成模拟数据
获取某前端框架, 使用 Mock.js 生成模拟数据, 想要对api进行改造,并且保留原始数据,需要使用C# 重写后端api 的数据 模拟的内容: Random.guid() uuid: '@uuid ...
- 嵌入式HLS 案例开发手册——基于Zynq-7010/20工业开发板(2)
目 录 2 led_flash 案例 19 2.1 HLS 工程说明 19 2.2 编译与仿真 20 2.3 IP 核测试 23 3 key_led_demo 案例 23 3.1 HLS 工程说明 2 ...
- IgH EtherCAT主站开发案例分享——基于NXP i.MX 8M Mini
前 言 本文档主要演示NXP i.MX 8M Mini工业开发板基于IgH EtherCAT控制伺服电机. 演示板卡是创龙科技的TLIMX8-EVM工业开发板,它是基于NXP i.MX 8M M ...