火山引擎DataLeap数据质量解决方案和最佳实践（二）：解决方案

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

DataLeap流批数据质量解决方案

产品功能架构

火山引擎DataLeap流批数据质量解决方案有 4 个大的功能：

离线数据质量监控：解决批和微批监控场景，支持 Hive、ClickHouse、ES 等多种数据源，并有字段、唯一性等多种监控维度，允许通过 SQL 自定义维度聚合进行监控。
流式数据质量监控：解决流式监控场景，支持 Kafka/BMQ 等数据源。
数据探查：解决数据开发之前对数据内容存疑问题，支持 Hive 数据源。
数据对比：解决新旧表数据一致性问题，支持 Hive/Hive SQL 数据源。

系统架构

上图是DataLeap数据质量平台的系统架构图，主要分为 5 个部分：

Scheduler：外部调度器，触发离线监控。主要分两种类型：
- 对外提供 API 调用任务；
- 定时调度，通过 calljob 调用数据。
Backend：后端服务，偏服务层，处理业务逻辑。主要负责：
- 质量平台和外部的交互，所有 API 响应都是通过这一层进行；
- 任务提交：用户在质量平台配置的规则会放到业务存储，Scheduler 被调用后，Backend 会将任务相关的参数配置进行任务提交；
- 获取质量监控的结果并进行判断，然后和外部系统进行交互，在需要时发送警报通知用户。
Executor：平台核心的任务执行模块，集成了一些引擎，例如数据探查使用 OLAP 引擎。质量监控部分使用 Griffin 的 Measure 进行数据统计。
Monitor：是一个相对独立的模块，主要进行状态服务的流转，提供重复报警等功能。
Alert Center：质量平台强依赖于该平台。它是外部报警服务，接收各种报警事件。

离线数据检测流程

下面看一下离线数据的检测流程。

离线数据的监控、探查、对比的执行流程一致，主要分为 4 步：

监控触发：调度系统调用质量模块 Backend API；
作业提交：Backend 以 Cluster 模式提交 Spark 作业至 Yarn；
结果回传：作业结束 (成功、失败)，Driver 将结果 sync 至 Backend；
消息触发：Backend 根据结果触发相应动作 (例如：报警、消息提示)。

我们总结了一下Dataleap数据质量平台的优势：

调度系统低耦合：数据质量平台没有和调度系统强绑定，一般可以用业务系统的 API 实现互相调用。
事件触发高效，Backend水平扩展能力强：Backend 是无状态的实例服务，如果质量监控的业务系统较多，Backend 可以采用水平扩展的方式部署，接收请求并提交作业。
没有 Quota 限制：平台本身没有维护数据质量监控单独需要的资源队列，而是把这个权限开放给用户，用他们自身的资源做资源监控。这样就把 Quota 问题转换成了用户资源问题。

当然任何一个工具都不可能是完美的，数据质量平台暂时还有一些待提升的地方：

非 CPU 密集型查询较重：整个平台的设计是以任务提交的方式完成离线场景的需求。但是后来我们发现其实不需要启动 Spark 的作业仍然会启动一个 Spark 作业，如 ES SQL 查询，这个查询是很重的。
依赖 Yarn 做调度稳定性不高：平台上的任务在资源不充足或被挤占的情况下，会出现任务运行或调用很慢。

流式监控执行

对于流式数据的监控，我们选择了 Flink 引擎，因为流式数据不同于离线数据，不能用快照的方式低成本拿到过程。所以我们要依赖一些外部的时序数据库再加规则引擎来展示对数据的监控。

平台上流式数据监控的流程为：

根据规则定义，创建 Flink 作业；
根据报警条件，注册 Bosun 报警事件；
Flink 作业消费 Kafka 数据，计算监控指标写 Metrics；
Bosun 基于 Metrics 的时序数据，定时检测，触发报警；
Backend 接收报警回调，处理报警发送逻辑。

下面着重介绍两个模块的实现。

Executor 实现

Executor 是基于 Apache Griffin 的 Measure 模块改造的一个 Spark Application。功能包括：

适配数据源
数据转化为 DataFrame
规则转化为 SQL 操作
计算结果

Executor 的选型有以下几方面的考虑：

扩展性要足够强，能够适配不同的数据源，如 Hive，MySQL 等等
计算性能要较强
支持的监控类型种类需要足够多

考虑到以上方面的信息，我们选用了 Apache Griffin 的 Measure 模块作为 Executor。它基于 Spark 开发，能够适配不同的数据源，并且对于 DSL 做了一系列拓展。基于平台的设计，我们需要和 Backend 进行较多的互动，并把数据进行回传。其实 Griffin Measure 本身就支持了一些基本的数据质量监控，比如重复值检测、自定义 SQL 等等，这里重点说明一下我们对 Measure 模块的改造：

改造数据源、Sink 使其能够通过 HTTP 访问远程 API；
部分功能增强、修改，例如：支持正则表达式；
流式监控从 Spark Engine 切换为 Flink Engine，优化整体流式监控方案。Measure 本身是 Spark 生态的一部分，只能用 Spark Engine 做理线或者用微批模拟流式做监控。字节跳动内部本身有一定的 Flink 的能力，并且 Flink 对流式数据的处理能力比微批要好很多，所以我们就进行了这样的改造。

Monitor 实现

Monitor 模块主要是为了实现失败报警重试和重复报警功能，根据事件类型触发相应事件（重复报警、失败重试等）。因为业务数据全部存储在 MySQL，平台之前的 Monitor 重复报警做的也比较简单，即直接通过轮询的方式从 MySQL 中轮询拉起已报警实例，然后通过重复提交的方式进行报警。

点击跳转大数据研发治理套件 DataLeap了解更多

火山引擎DataLeap数据质量解决方案和最佳实践（二）：解决方案的更多相关文章

火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
火山引擎 DataLeap：揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
火山引擎 DataLeap：3 个关键步骤，复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
火山引擎 DataLeap：一家企业，数据体系要怎么搭建？
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
如何又快又好实现 Catalog 系统搜索能力？火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
express 最佳实践(二)：中间件
express 最佳实践(二):中间件第一篇 express 最佳实践(一):项目结构 express 中最重要的就是中间件了,可以说中间件组成了express,中间件就是 express 的核心. ...
nodejs 实践：express 最佳实践(二) 中间件
express 最佳实践(二):中间件第一篇 express 最佳实践(一):项目结构 express 中最重要的就是中间件了,可以说中间件组成了express,中间件就是 express 的核心. ...
iOS系统中导航栏的转场解决方案与最佳实践
背景目前,开源社区和业界内已经存在一些 iOS 导航栏转场的解决方案,但对于历史包袱沉重的美团 App 而言,这些解决方案并不完美.有的方案不能满足复杂的页面跳转场景,有的方案迁移成本较大,为此我们 ...
海量大数据大屏分析展示一步到位：DataWorks数据服务对接DataV最佳实践
1. 概述数据服务(https://ds-cn-shanghai.data.aliyun.com) 是DataWorks产品家族的一员,提供了快速将数据表生成API的能力,通过可视化的向导,一分钟 ...

随机推荐

圆方树 useful things
圆方树,是解决仙人掌问题的实用方法,假设最初图都是圆点,对于每个环新建一个方点并连接这个环上所有圆点,能很好规避同一个点可能属于很多个环的情况,并且发现build完之后是一棵树广义圆方树,能够不局限 ...
解决 Error L6915E 问题
出现以下错误: Error: L6915E: Library reports error: The semihosting __user_initial_stackheap cannot reliab ...
C语言实现输入的时间，屏幕显示一秒后的时间。显示格式为HH:MM:SS。
#include <stdio.h> int main() { int HH, MM, SS; scanf("%d:%d:%d",&HH,&MM,&am ...
LabVIEW基于机器视觉的实验室设备管理系统(5)
目录行动计划设备借用判断设备ID是否正确.设备是否在库判断是否为已注册用户.电话是否正确借出设备设备归还信息查询判断ID是否正确.选择设备状态效果演示今天这一期,我们就来完成实验 ...
Go语言函数详解
函数 (1)函数的定义函数使用func进行定义函数是基本的代码块,用于执行一个任务 Go语言至少有一个main函数函数声明告诉了编译器函数的名称,返回类型和参数 //1.无参数无返回值函数的定义 ...
Django学习(二) 之模板的使用
写在前面昨晚应该是睡的最好一天吧,最近一个月睡眠好差,睡不着不说,而且半夜总醒,搞的第二天就会超没精神. 昨天下午去姐姐家,小外甥直接进屋就问我说: 老舅,你都很长时间没来啦,**(前女友)怎么哪去 ...
MAUI+Masa Blazor APP 各大商店新手发布指南-华为篇
目录前言准备材料一.企业认证二.审核资料审核注意事项总结前言 AppGallery Connect(简称AGC)是华为应用市场推出的应用一站式服务平台,致力于为开发者提供应用创意.开发. ...
K8S核心技术
一.命令行工具Kubectl kubectl 是 Kubernetes 集群的命令行工具,通过 kubectl 能够对集群本身进行管理,并能够在集群上进行容器化应用的安装部署 1.基本语法 kube ...
.Net 8与硬件设备能碰撞出怎么样的火花（使用ImageSharp和Protobuf协议通过HidApi与设备通讯）
前言本人最近在社区里说想做稚晖君的那个瀚文键盘来着,结果遇到两个老哥一个老哥送了我电路板,一个送了我焊接好元件的电路板,既然大家这么舍得,那我也就真的投入制作了这把客制化键盘,当然我为了省钱也是特意 ...
牛客小白月赛2 D题虚虚实实
题目链接:https://www.nowcoder.com/acm/contest/86/D 解题思路:这题目就是判断是否存在欧拉路径.由无向图存在欧拉路径的充分必要条件可知先判断是否联通,再判断是否 ...

火山引擎DataLeap数据质量解决方案和最佳实践（二）：解决方案

DataLeap流批数据质量解决方案

火山引擎DataLeap数据质量解决方案和最佳实践（二）：解决方案的更多相关文章

随机推荐

热门专题