十分钟读懂火山引擎 DataLeap 数据治理实践
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
日前,火山引擎数智平台 VeDI 直播活动「超话数据」在线举办,来自火山引擎 DataLeap 数据产品专家从数据治理与管理,企业数智化升级等角度,分享了 DataLeap 在字节跳动内的治理经验和实践。
DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本,自 2022 年推出至今,DataLeap 提供的数据研发治理能力已陆续被多个行业企业所采用。
本次分享主要围绕以下几个方向展开:
数据治理是数据中台核心能力之一
一站式数据治理赋能企业数字化转型
基于字节经验的数据治理解决方案
以「在线教育」场景为例,解读数据治理实践

企业数字化升级业务场景及痛点
1、数据孤岛
一种情况是海量数据分散在各处且形态各异,造成集成困难;另一种情况则是批量数据和实时数据的集成技术不同,导致集成难度。
2、需求响应慢
通常数据开发的需求是支持业务,但一般一个需求从提出到到沟通到交付,周期是 2 周以上,甚至更长,会影响到业务的一些敏捷度。其次数据的需求不好复用,也会涉及到像重复开发以及浪费资源的情况。
3、数据质量差
第三个痛点是数据质量差,由于数据的杂质比较多、质量不好,清洗难度大,当出现口径不一致的时,会影响到数据产出的时效。
4、资产共享难
最后一个是数据资产的共享难,一般企业有让数据资产能够沉淀,能够共享的诉求。如果是遇到源数据不完善,用户无法找到数据,同时缺少有效的知识体系的一些沉淀,对数据价值的挖掘也是一个难点。

火山引擎数据中台解决方案
一站式大数据研发治理平台
火山引擎目前提供的数据中台解决方案由两部分组成:一站式的大数据研发治理平台+大数据的平台。一站式的研发治理平台,它主要解决的包括数据的整合,支持多元异构的数据的接入。其次是数据的全链路研发管理,包括支持多引擎以及对接各种各样的 DATA、OPS、 CICD 的能力。第三层是全生命周期的治理,包括到质量基线、 SLA 等等。一站式的大数据研发治理平台第四层是数据安全共享,提供向细粒度的数据权限管控和审批。
大数据平台
大数据平台是一个底座,提供的是数据的存储和计算能力,支持像 TB 到 PB 级的离线,实时检索各种场景。它有两个引擎,一是基于开源 Hadoop 生态的 EMR,支持数据湖场景,二是火山引擎自研的湖沧一体分析服务 LAS,兼容开源生态,支持数据仓库 &数据湖场景。

大数据研发治理套件 DataLeap 产品架构
全链路的数据研发
全链路的数据研发,涵盖数据源、数据集成、数据处理、数据服务等全流程。为了提高数据开发效率,DataLeap 还提供支持数仓规范建模、代码审查的发布中心,以及支持任务运维、数据回溯的运维监控。
全域治理
全域治理,包括治理规划、进度管控到治理收益反馈全流程能力,支持用户完成 SLA 治理、数据质量、数据安全、成本治理以及报警治理等工作。
资产地图
资产地图,主要是支持数据资产沉淀、数据共享以及数据复用。

关键能力 1:一站式数据研发全链路管理
一站式的数据研发全链路管理,主要面向研发场景,覆盖从需求设计到开发、测试、发布、验收、运维等全部流程。
首先能提供稳定、安全、高效的数据集成服务,支持 20 +以上多元异构数据集成;其次能提供一站式、全栈数据研发服务,兼容 Spark、Flink 等多种计算引擎,提供 HSQL、Spark、Python、Flink 、SQL、Notebook 等 10+数据开发能力;最后是全面的运维能力,丰富的批、流任务监控规则,归类业务运维管理,监控全链路任务运行。

关键能力 2:数据全生命周期治理-分布式数据自治
第二个关键能力是全生命周期的数据治理,也可称为“分布式数据自治”。分布式数据自治场景涵盖稳定性、质量、安全、成本优化等内容。
在产品层面,火山引擎 DataLeap 提供规划式治理、治理诊断以及治理之后的目标验收和复盘,还具备 SLA 数据安全资源优化等功能。

关键能力 3:数据资产发现及细粒度权限管控
第三个关键能力是数据资产发现以及细粒度权限管控,它主要是提供了痊愈的数据采集,基于血缘能够展示出来所有的元数据,能够挖掘数据价值,能够找数、用数等。数据资产提供了强大的检索能力。并且 DataLeap 有很丰富的元数据的详情信息,结合数据血缘,帮助用户能够全面地探索和理解各种各样的数据内容。
DataLeap 提供事前、事中、事后这种全方位的数据安全保障,做到最小授权原则,同时提供强大的数据审计能力,包括权限审计、行为审计等等。

核心优势
第一是 DataLeap 是能够和多云多引擎开源兼容的一个大数据治理平台的软件产品,刚才提到的像 EMR 、LAS 这种平台。 从产品形态上来看,DataLeap 提供公有云的 SaaS 以及私有化多云部署的能力。在研发上,实现了研发全链路覆盖,这是一整套完善的能力。第三是字节特色的分布式数据自治, SLA 细粒度的权限管控,事中事前、事中事后的全生命周期的数据治理的能力。第四个优势是数据资产、地图共享,提供数据专题,指标平台、数据血缘链路追踪、数据服务,帮助搭建企业级数据资产体系和数据共享。
客户案例分享
以得到 APP 为例,得到面临业务数据不稳定、数仓欠缺规范性等治理问题。
通过引入数据 BP 机制,结合专家咨询,火山引擎 DataLeap 帮客户搭建可持续的治理体系。在提效方面,帮助得到推荐以及落地数据质量和 SLA 达成率,解决了产出延迟和脏数据的问题,显著的提升了数据故障的解决效率,即从 3 天降为 1 天。同时,DataLeap 帮得到沉淀出一个规范化数仓,构建出八个业务域,使得数据地图的完整度提升,并提高了找数、用数效率。
从实施效果上来讲,得到团队完成从 0 到 1 的数据治理体系搭建,最终实现数据研发提效 50% ,使得 4 人数仓团队管理超过 3000 个数据任务,数仓易用性也提升 60%。
点击跳转 大数据研发治理套件 DataLeap 了解更多
十分钟读懂火山引擎 DataLeap 数据治理实践的更多相关文章
- 火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
- 3.十分钟读懂——App开发规范的业务流程
转自:http://www.itdaan.com/blog/2017/12/08/6bc06b3387a8d1238504355a6a1c6743.html 一.主要流程 二.产品立项 工作概述: ...
- 十分钟读懂JavaScript原型和原型链
原型(prototype)这个词来自拉丁文的词proto,意谓“最初的”,意义是形式或模型.在JavaScript中,原型的探索也有很多有趣的地方,接下来跟随我的脚步去看看吧. 原型对象释义 每一个构 ...
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 一分钟读懂低功耗蓝牙(BLE)连接数据包
一分钟读懂低功耗蓝牙(BLE)连接数据包 1.概述 BLE 连接过程中有三个重要的数据包:SCAN_REQ, SCAN_RSP 和 CONNECT_REQ. SCAN_REQ: 扫描请求,由主设备(M ...
- 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 一片非常有趣的文章 三分钟读懂TT猫分布式、微服务和集群之路
原文http://www.cnblogs.com/smallSevens/p/7501932.html#3782600 三分钟读懂TT猫分布式.微服务和集群之路 针对新手入门的普及,有过大型网站技 ...
- 十分钟看懂AES加密
十分钟看懂AES加密算法 今天看了Moserware的<A Stick Figure Guide to the Advanced Encryption Standard(AES)>收获了不 ...
- 火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
随机推荐
- HTML-8
(一)引用数据类型 object function array object JavaScript对象用花括号来书写 对象属性是name:value由逗号分隔 var x={firstname:&qu ...
- [转载]R2: 已解释和未解释的方差
估计值的方差与总体方差之间的差异就是回归方程对方差的解释率.试举一例,如图 1,身高与体重的回归线显示身高与体重之间呈正相关,Mr. Y身高76英寸体重220磅(图 1中插图.cdr的红点),他与体重 ...
- NLP机器翻译全景:从基本原理到技术实战全解析
机器翻译是使计算机能够将一种语言转化为另一种语言的技术领域.本文从简介.基于规则.统计和神经网络的方法入手,深入解析了各种机器翻译策略.同时,详细探讨了评估机器翻译性能的多种标准和工具,包括BLEU. ...
- 操作PDF的方法
PDF的内容提取.转换见上篇 PDF操作: 旋转 删除 合并 拆分 转成图片 导出内嵌资源图片 两页合并成一页 添加.去除密码 添加水印 PDF旋转某一页 var document = pdfView ...
- RTMP协议学习——从握手到播放
从客户端发起播放请求,到rtrmp视频流开始播放,大致经过了握手->建立连接->创建流->播放这几步比较重要的步骤.下面我将结合wireshark的抓包,对其中的每个流程进行分析和学 ...
- 2023浙江省大学生信息安全竞赛决赛 Cry+Misc wp
搞到了一些附件,做做看难度如何. CRYPTO R_r 1.题目信息 查看代码 from Crypto.Util.number import * import random from gmpy2 im ...
- LabVIEW用布尔控件实现上升沿和下降沿触发
我们利用了第三方布尔控件来记录摇杆的高低电平状态,并和摇杆布尔控件组成布尔数组,转换成十进制数进行判断上升沿和下降. 上升沿触发.例如一开始第三方布尔控件为T,夹紧松开布尔控件为F,然后我这时把摇杆控 ...
- C#中的类和继承
公众号「DotNet学习交流」,分享学习DotNet的点滴. 类继承 通过继承我们可以定义一个新类,新类纳入一个已经声明的类并进行扩展. 可以使用一个已经存在的类作为新类的基础.已存在的类称为基类(b ...
- Flask 运用Xterm实现交互终端
Xterm是一个基于X Window System的终端仿真器(Terminal Emulator).Xterm最初由MIT开发,它允许用户在X Window环境下运行文本终端程序.Xterm提供了一 ...
- Java数组最常用操作方法(Arrays类)
最近在写代码的过程中发现我们很多地方都会处理数组,有时只是模糊的记得有API可以调用,每次都查文档很是费事儿,适当的总结希望提高开发速度 一.申明数组 数组的申明十分简单也十分的基础,注意第三种申明方 ...