火山引擎DataLeap数据质量解决方案和最佳实践（三）：最佳实践

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

最佳实践

前面介绍了DataLeap数据质量平台的一些实现方式，下面为大家介绍一些我们在数据量和资源这两个方面的最佳实践。

表行数信息-优先 HMS 获取

内部的离线监控中，表行数的监控占比非常大，可能至少 50% 以上的离线规则都是表行数的监控。对于表行数，之前我们是通过 Spark，Select Count* 提交作业，对资源的消耗非常大。后来我们对其做了一些优化。在任务提交的过程中，底层引擎在产出表的过程中将表行数记录写入相应分区信息中，我们就可以直接从 HMS 分区里直接获取表行数信息，从而避免了 Spark 任务的提交。

优化后的效果非常明显，目前对于表行数的监控，HMS 获取行数占比约 90 %，HMS 行数监控平均运行时长在秒级别。

注：这个功能需要推动底层服务配合支持，比如 Spark 需要把保存在本地 metric 里面的信息写入到 HMS 中，其他数据传输系统也需要支持。

离线监控优化

这一块是基于 Griffin 的 Measure 来进行，Measure 本身有丰富的功能，我们对其进行了裁剪以节约耗时。主要的裁剪和优化包括：

裁剪掉部分异常数据收集功能；
优化非必要的 join 流程。

另外，我们也对离线监控的执行参数进行了优化，主要包括：

根据不同的监控类型，添加不同的参数 (shuffle to hdfs 等)；
根据监控特性，默认参数优化（上调 vcore 等）。

举个例子：用户写了 SQL 进行数据的 join，执行引擎可以分析出执行计划。对于 join 类的操作，shuffle 可能非常大，这种情况下我们默认会开一些 Spark 参数。根据表行数来预判数据表的大小，如果判断数据表比较大，会默认微调 vcore 和 memory。以上这些优化都能在一定程度上提升性能，目前平台上各类监控的平均运行时长缩短了 10% 以上。

引入 OLAP 引擎

平台上很多数据表和业务表（除了日志表以外），在数仓上层的表监控数据量不是很大，这种情况很适合进行 OLAP 的查询。

这种情况下我们在数据探查场景引入了 presto。之前在该场景下通过 Spark 做探查，引入 presto 之后通过快速 fail 机制，大数据量、计算复杂的探查任务 fallback 到提交 Spark 作业，探查时间中位数从之前的 7min 缩短到目前的不到 40s，效果非常显著。

流式监控支持抽样 & 单 Topic 多 Rule 优化 Kafka 数据抽样

一般流式数据的问题都是通用性问题，可以通过数据采样发现问题。因此我们开发了数据采样的功能，减少数据资源的占比消耗。Flink Kafka Connector 支持抽样，可直接操作 kafka topic 的 offset 来达到抽样的目的。比如，我们按照 1% 的比例进行抽样，原来上 W 个 partition 的 Topic，我们只需要 ** 个机器就可以支撑。

单 Topic 多 Rule 优化

最早的时候我们是对一个 Topic 定义一个 Rule，然后开启一个 Flink 任务进行消费，执行 Rule。后来我们发现一些关键的数据需要对多个维度进行监控，也就是要定义多个维度的 Rule，对每一条 Rule 都开任务去消费是非常耗资源的，所以我们利用监控不是 CPU 密集型作业的特性，复用读取部分，单 slot 中执行多个 Rule，对 Topic 级别进行单一消费，在一个任务中把相关 Rule 都执行完。

未来演进方向

本文介绍了Dataleap数据质量平台的实现和最佳实践，最后谈谈平台未来的演进方向。

底层引擎统一，流批一体：目前平台的离线任务大部分是基于 Spark 完成的，流式数据采用了 Flink 处理，OLAP 引擎又引进了 presto，导致这套系统架构的运维成本比较高。我们看到 Flink 目前的 presto 能力和 Flinkbatch 的能力也在不断发展，因此我们后续会尝试切一些任务，做到真正意义上的统一引擎。
智能：引入算法进行数据驱动。考虑引入 ML 方法辅助阈值选取或者智能报警，根据数据等级自动推荐质量规则。举几个例子，比如我们可以基于时序算法智能的波动率监控来解决节假日流量高峰和平常的硬规则阈值的提升。
便捷：OLAP 对性能提升比较显著，但是目前我们只用在了数据探查功能上。后续可以将 OLAP 引擎应用于质量检测、数据据探查、数据对比应用与数据开发流程。
优化：比如通过单一 Job，同时运行多个监控，将监控和数据探查结合。我们现在在尝试将数据质量的规则生成和数据探查做结合，做到所见即所得的数据和规则的对应关系。

点击跳转大数据研发治理套件 DataLeap了解更多

火山引擎DataLeap数据质量解决方案和最佳实践（三）：最佳实践的更多相关文章

火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
火山引擎 DataLeap：揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
火山引擎 DataLeap：3 个关键步骤，复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
火山引擎 DataLeap：一家企业，数据体系要怎么搭建？
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
如何又快又好实现 Catalog 系统搜索能力？火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
开源数据质量解决方案——Apache Griffin入门宝典
提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监 ...
DataLeap 数据资产实战：如何实现存储优化？
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群背景 DataLeap 作为一站式数据中台套件,汇集了字节内部多年积累的数据集成.开发.运维.治理.资产.安全等全 ...
DeltaLake数据湖解决方案
Delta Lake 是DataBricks公司推出的一种数据湖解决方案,Delta为该方案的核心组件.围绕数据流走向(数据入湖从流入数据湖.数据组织管理.数据查询到流出数据湖)推出了一系列功能特性, ...
JuiceFS 在火山引擎边缘计算的应用实践
火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算.网络.存储.安全.智能为核心能力的新一代分布式云计算解决方案. 01- 边 ...

随机推荐

MVC(JSP+JavaBean+Servlet)入门实例:用户登陆验证
一.JSP.JavaBean.Servlet的区别 1.JSP:JSP通过在标准的HTML页面中嵌入Java代码,其静态的部分无效Java程序控制,只有那些需要从数据库读取或需要动态生成的页面内容,才 ...
SpringBoot系列之MyBatis Plus自动填充实现
系列博客专栏:SpringBoot2.0系列博客专栏开发环境 JDK 1.8 SpringBoot2.2.1 Maven 3.2+ Mysql5.7.36 开发工具 IntelliJ IDEA sm ...
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做 ...
23C新特性：True Cache的介绍
我们的文章会在微信公众号"Oracle恢复实录"和博客网站"https://www.cnblogs.com/www-htz-pw/" 同步更新 ,欢迎关注收藏, ...
HoG / SIFT 学习指北
本文 OI / ACM 无关. Explain HoG 原文出处: N. Dalal, and B. Triggs, Histograms of oriented gradients for huma ...
【1】从零玩转OSS阿里云存储服务之阿里云平台等操作-1-cong-ling-wan-zhuan-oss-a-li-yun-cun-chu-fu-wu-zhi-a-li-yun-ping-tai-deng-cao-zuo
title: [1]从零玩转OSS阿里云存储服务之阿里云平台等操作 date: 2021-06-09 17:21:12.037 updated: 2021-12-26 17:43:18.92 url: ...
springboot-jpa获取session
springboot获取hibernate的session进行更精细的SQL操作,默认的jpa并不能满足一些复杂需求(可能是我把需求设计复杂了) 通过查看JpaRepository的底层实现,发现是通 ...
[LitCTF 2023]1zjs
打开环境: 一个魔方♂ 习惯性打开 F12,之后发现有个./dist/index.umd.js Ctrl u 打开把这个蓝色的点开 0.o? 这里眼神好的话就能看到有个" /f@k3f1a ...
【Tinyui】极简跨平台桌面端小工具开发框架
导航 Github Gitee 开发指南用户手册说明在产品或项目工作中,可能会遇到需要给非开发人员或者客户提供简易的PC小工具,这些小工具通常用户交互比较简单:功能也不复杂:同时需要支持多平台以 ...
[集训队作业2013] 城市规划（NTT）
一周一博客二专题计划题面 n 个点的简单 (无重边无自环) 有标号无向连通图数目. 看着就很典思路设\(f(n)\)为n点连通图数目.设\(g(n)\)为n点不一定联通图数目,显然直接枚举每条边 ...

火山引擎DataLeap数据质量解决方案和最佳实践（三）：最佳实践

最佳实践

火山引擎DataLeap数据质量解决方案和最佳实践（三）：最佳实践的更多相关文章

随机推荐

热门专题