申报签署流程详解

火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以申报单签署的形式达成SLA协议。平台核心特点是优化了SLA达成的流程,先通过“系统卡点计算”减少待签署任务的数量,再通过“SLA推荐计算”自动签署部分任务,最后为剩下的待签署任务智能提供合适的SLA,进一步降低签署成本。

在申报签署环节中,各个环节的变化将通过通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了SLA的达成。

流程简介

上图为申报签署的一般流程,在实际操作时,如任务链路变化、SLA时间商讨待确认等特殊情况,申报签署流程会有微调。
首先需要申报人填写申报单,在申报人提交后,系统会根据申报单中的申报任务拉取上游的所有任务,构成一个完整的DAG,并进行任务链路分析链路分析的结果是后续算法的前提,也是管理员审批时的重要参考因素,可以让用户快速了解到自身任务在链路中所处的位置及上下游运行情况。
在理想情况下,为保证申报任务顺利推进,需要该任务的所有上游任务都签署SLA才算完成签署。而链路复杂导致的上游任务多、跨团队沟通成本高、SLA难以确定等问题,成了整体SLA达成的最大阻碍。通过“卡点计算”与“SLA推荐计算”可以跨越此阻碍。

卡点计算

本系统采取一定的“卡点策略”,计算出此DAG中的部分需要被签署的任务,此类任务称为“卡点任务”,这个过程称之为“卡点计算”。计算得到卡点任务后,在签署过程中可以忽略其他任务,从而大大降低签署成本。
一个申报单会关联多个任务(即该申报任务及其上游的卡点任务),同理一个任务也会关联多个申报单,因为在一个DAG中,申报任务可能从任意节点起,因此二者是N:N的关系。

当两个申报单有部分任务列表重合时,如Task4关联了两个申报单,该任务的申报方、治理团队等数据是两个申报单的去重合集,而等级则取所有申报单中最高者。

SLA推荐计算

利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐SLA,这个过程称之为SLA推荐计算。
在负责人签署SLA之前,SLA推荐算法会智能计算每个任务的推荐的SLA,并以此进一步通过算法自动签署部分待签署的任务,进一步降低签署成本。据平台数据统计,此功能可以自动签署近40%的SLA,是最核心的功能之一。
而对于剩余的待签署任务,会将算法推荐的SLA提供给任务负责人。任务负责人可以直接选择直接用这个SLA签署,也可以自行决定SLA。一般情况下,智能推荐的SLA已经能满足绝大多数的需求,通过推荐SLA,任务负责人更快的做出签署决定,再次降低了签署成本。

系统保障监控

当一个申报单完成签署之后,平台将对申报单中的任务进行保障服务。保障服务的核心就是通过监控SLA的状态变化及时播报消息通知,为相应负责人及时提供一手资料,以此降低运维成本。对于一个离线任务,评价其SLA主要是依据其完成时间和其所承诺的SLA来判断,SLA的状态分为四种,分别是:
  • 未到SLA:即当前时间,任务未产出,且还未到SLA时间(继续监控);
  • 已达成:即任务已完成,且完成时间在所承诺的SLA之前(发送就绪通知);
  • 已延迟:即任务未完成,且当前时间已在所承诺的SLA之后(发送延迟通知);
  • 已延迟(产出):即任务已完成,但完成时间在所承诺的SLA之后(发送延迟产出通知);
    • 从下图可以看到在任务达成、未达成两种情况下,随着时间的推移,其SLA状态的变化。

SLA的实时状态是数据业务方所需要的重要信息,因此平台会所有任务的SLA进行监控,并在SLA状态变化时实时对相关人员发送通知,相关人员根据收到的通知知晓SLA的具体情况,并能做出应对措施。

复盘管理详解

复盘管理是本平台提供的响应式治理服务的实现方式,是数据治理方的重点关注对象。复盘管理又分为问题管理与事故管理,问题管理侧重于“为什么”——即整理分析SLA破线的原因,事故管理侧重于“怎么做”——即SLA破线事故之后该怎么治理。

问题管理

问题管理模块的整体目标是满足数据治理团队对SLA问题的登记管理,支持对登记后的问题数据进行不同维度根因数据分析,辅助用户对问题根因进行治理,沉淀治理问题经验。
平台在进行系统保障监控时,会在SLA延迟时进行通知播报,并持续提醒负责人进行问题登记。在问题登记时,平台提供了一组根因树辅助登记,明确问题根因类别,方便统计分析。任务负责人进行问题登记后,累积数据展示在问题看板上,数据治理方由此做问题分析归纳总结。

平台保证了SLA延迟记录与问题之间是一一对应的关系,并在问题看板上关联了SLA详情信息,包括任务链路、负责人、任务起止时间等。
问题登记往往是一个从多到少的过程,前期出现的问题在逐一治理解决后,将对后期的治理起到很好的参考警示作用,它的数据价值如下:
  • 不同SLA问题类型的趋势分布,针对性的治理问题
  • 相同根因引发了多少SLA问题,涉及影响多少数据资产
  • 哪些数据资产经常出现SLA问题,问题的分类以及是什么根因造成的
  • SLA问题经验总结,方便类似问题发生后,后期做推荐辅助快速定位根因
根据平台运营的记录显示,常见的问题有资源队列阻塞、上游任务故障、数据倾斜等。某数据团队双月问题登记总结如下,问题数量和问题根因种类得到了有效的收敛:
双月
问题数量
根因种类
2019-07/08
77
12
2019-09/10
58
10
2019-11/12
33
7
2020-01/02
23
5
2020-03/04
17
4
2020-05/06
9
2
2020-07/08
9
2

事故管理

事故管理用于记录SLA破线事故的复盘与改进管理,每个事故至少对应一条SLA问题记录,而每个SLA问题不一定会造成事故。
事故可以在任意节点进行,一般在SLA破线并造成实际的业务影响之后,需要进行事故登记,事故登记同样会关联相关的SLA信息。一个事故的处理流程如下所示:

如图所示,事故主要包含SLA事故明细、SLA事故根因、改进计划及SLA消耗这几部分,在这其中可以关注以下几点:
  1. 事故在登记时,会根据事故明细确认事故根因,并让相应负责人提出改进计划。
  2. 用户可以订阅事故,在事故的复盘状态及其改进计划的完成状态变化时,都会通知订阅人。
  3. 任务的改进计划在完成前,每日都会提醒计划负责人,直到计划完成为止
SLA事故管理平台的数据是数据治理方治理成果的重要依据,也是整个SLA保障平台使用效果的体现,它的数据价值如下:
  • 对事故的复盘归档管理,方便后期随时查阅,定位相关SLA信息
  • 针对不同数据团队发生SLA事故的整体情况进行对比查看,互相借鉴
  • 对事故的改进计划管理跟踪,验收SLA的治理效果
以下是某个团队的双月事故统计:
双月
事故数量
环比
2019-07/08
46
- - -
2019-09/10
26
-43%
2019-11/12
18
-31%
2020-01/02
13
-28%
2020-03/04
7
-46%
2020-05/06
6
-14%
2020-07/08
5
-16%
通过上述数据可知,火山引擎DataLeap SLA平台有效保障了核心任务的稳定产出,辅助降低了稳定性事故发生的概率,现在每双月该类型事故数量长期维持在个位数。
 

火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解的更多相关文章

  1. 难对齐、难保障、难管理?一文了解字节跳动如何解决数据SLA治理难题

    基于字节跳动分布式治理的理念,数据平台数据治理团队自研了SLA保障平台,目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐.难 ...

  2. 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...

  3. 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做

      摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...

  4. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

  5. 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...

  6. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  7. 火山引擎DataLeap数据调度实例的 DAG 优化方案

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...

  8. 系统丢失的DLL文件问题根源解决(纯净官网下载放心)(图文详解)(博主推荐)

    导言 最近,身边的朋友们,问我,他电脑的win10系统里 mfc110.dll 丢失. 其他的系统文件丢失修复,是一样的步骤. 现象 大家也许,都会有这么一个习惯,动不动则就去百度上搜索. 其实啊,这 ...

  9. zepto的touch模块解决click延迟300ms问题以及点透问题的详解

    大家都知道移动端的click事件会延迟300ms触发,这时大家可以使用zepto的touch模块,里面定义了一个tap事件,通过绑定tap事件,可以实现点击立即触发的功能. 那么,它的tap事件是怎么 ...

  10. 火山引擎MARS-APM Plus x 飞书 |降低线上OOM,提高App性能稳定性

    通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的 ...

随机推荐

  1. [Python急救站课程]Hello Kitty的绘制

    我女朋友喜欢Hello Kitty,当她知道我会用Python画图,让我给画一个,怎么说呢,当然要安排上啦!请看程序 import math import turtle as t # 计算长度.角度 ...

  2. off-line RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound

    论文题目: Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文:"是 off-line RL ...

  3. SNN_文献阅读_Spiking Deep Convolutional Neural Networks for Energy-Efficient Object Recognition

    两种方法将CNN转化成为SNN: 直接训练一个类似CNN架构的SNN「虽然有类似于STDP等无监督方法,但是处于起步状态」 训练初始的CNN,将训练得到的权重直接应用于类似于CNN架构的SNN「将CN ...

  4. vue 甘特图(附件):甘特图附件

    甘特图样式: .gantt_container { border-color: transparent !important; .gantt_right { top: 0% !important; d ...

  5. 计算网络之MSTP协议与VRRP协议

    一.MSTP协议 MSTP协议出现是基于STP协议和RSTP协议的,要了解MSTP协议就需要先了解其它两个协议 首先,STP协议是交换机生成树协议,它的出现主要是为了解决二层交换机环路的问题,当多个交 ...

  6. 关于一类最优解存在长度为 $k$ 的循环节的问题

    灵感来源 问题形式:给定长度为 \(n\) 的序列,要求选出一些位置,使这些位置满足限制条件 \(T\),其中 \(T\) 可以表述为一个长度为 \(k\) 的环满足条件 \(T'\),选出第 \(i ...

  7. Electron-React18-MacOS桌面管理系统|electron27+react仿mac桌面

    基于React18+Electron27+ArcoDesign仿macOS桌面端系统框架ElectronMacOS. electron-react-macOs 基于electron27.x+vite4 ...

  8. 在路上---学习篇(一)Python 数据结构和算法 (2) -- 冒泡排序、选择排序、插入排序

    独白: 第一次接触算法排序, 充满了好奇并且渴望了解其中原理,今天先学习了三种排序的方法,分别是 冒泡排序.选择排序.插入排序.学完以后发现数学知识真的很重要,越牛逼的算法要求知识越多,越精.虽说刚接 ...

  9. 2023-11-25:用go语言,给定一个数组arr,长度为n,表示n个格子的分数,并且这些格子首尾相连, 孩子不能选相邻的格子,不能回头选,不能选超过一圈, 但是孩子可以决定从任何位置开始选,也可以

    2023-11-25:用go语言,给定一个数组arr,长度为n,表示n个格子的分数,并且这些格子首尾相连, 孩子不能选相邻的格子,不能回头选,不能选超过一圈, 但是孩子可以决定从任何位置开始选,也可以 ...

  10. Qt官网开源最新版下载安装保姆级教程

    什么是Qt(了解请跳过) Qt 基本介绍 Qt 是一个跨平台C++图形用户界面应用程序开发框架. 有关 Qt 的详细介绍,可以参考这篇文章: Qt是什么?Qt简介(非常全面) - 李清龙的文章 - 知 ...