火山引擎DataLeap:助你实现从数据研发1.0到数据研发3.0的跨越
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
近日,火山引擎开发者社区 Meetup 第 12 期暨超话数据专场在深圳举办,本次活动主题为“数智化转型背景下的火山引擎大数据技术揭秘 ”,来自 DataLeap 的产品经理黄虹带来了 DataOps 相关实践的分享,以下内容经小编整理编辑后发布。
字节跳动是以数据 BP 的模式来支持业务的数据建设。也就是 数据 BP +数据中台产品,深入到各个业务线,承接、了解或者发现业务的数据需求,让数据在业务中释放最大价值。从下面这张图可以看到数据 BP 遍布了所有核心业务。在字节,数据 BP 是一个数量不小的群体。
(图:字节跳动数据建设模式)
数据 BP 团队做的好坏与否如何来评估,字节用了一套浅显易懂的指标 0987 来评价,包含了数据事故数、需求满足率、分析覆盖率与用户满意度等四个维度。
(图:数据研发新模式)
黄虹提到当前的研发模式是需要去做一个升级。在很早以前因为软件应用的发展是非常成熟的,但到现在来看,为了软件应对软件的危机,适时将工程化的这个理论引入进来,有一完整的一套软件工程理论是必要的。另外为了进一步解决软件开发和软件部署之间跨组织沟通的协调问题,也是需要把这些工程化的理念应用于数据开发里面,对我们是一个升级,从原来这种小作坊式的开发,变成了一个全链路的数据中台。
(图:字节 DataOps 方法论)
字节结合当前自身数据业务的一个发展情况,给出了 DataOps 的理解。 它是作用于人+流程+工具的一套方法论,目标是提高数据质量和开发效率,主要通过敏捷协作、自动化/智能化、以及清晰的度量监测,让数据流水线达到持续集成、部署、交付(CI/CD)。
此方法论可以从图中四个能力维度来理解,首先是构建高效的这个协同机制,也就是说我们会有一套流程,这个流程就是协同各个部门怎么去合作,并且是这个流程能够沉淀到数据研发平台;第二部分是我们会基于数据研发这个流程全链路去定义一套研发的规范,它会沉淀到工具层面,只要你在工具里面使用,你就会触达到这些规范;第三部分是一套度量体系,去度量需求以及它全生命周期里面产生的价值;最后是提供一体化研发平台,串联数据研发全流程,提升效率,打造全链路整合平台。
(图:字节 DataOps 框架)
字节 DataOps 的框架,流程层面首先是定义了需求到数据验收整个过程,同时对应的规范层面,它其实每个环节都有配套的规范。比如说需求规范,一个需求提过来它是什么类型的需求,会有一个提需的模板,后面到了评审环节和建模环节,这些都是类似的。
到了工具层面,是基于字节数据平台研发治理套件 DataLeap 来完善这个功能的建设,将 DataOps 所有这六个环节的能力集成到 DataLeap 里面。除了对于 DataLeap 本身的功能升级,字节也同时开放了能力的建设,会以更灵活的方式扩展集成外部工具来支持不同业务的定制化的需求。
(图:DataOps 产品方案-DataLeap)
这是 DataLeap 产品的架构图, DataLeap 是字节跳动的一站式数据研发治理平台,目前在火山引擎上也是可以去直接使用的。同时也支持私有化部署。这张图展现的是字节数据开发的 DataLeap 套件能力,涵盖了计算引擎、全链路开发、全域治理、资产等工具,这样的一站式大数据开发套件,能够帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据研发工作,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。DataLeap 不是一个产品,是一个套件(Suite)。形象的类比就是类似 Office,多个产品相互配合,解决同一个大的问题或者叫解决方案,产品之间是相互合作辅助的关系。那么 DataLeap 和 DataOps 是啥关系呢?
(图:DataLeap-DataOps 全流程)
简单来说,DataLeap 产品主要以规范研发流程为目的,涵盖对规范研发流程的“已有能力集成”,形成一站式研发体验,同时也包括规范研发流程所需关键的“新能力建设+集成”,上图体现了从规划设计-反馈的全流程。
在规划阶段首先要把需求全部管理起来,然后去做进度的跟踪以及需求的评审;开发阶段会有一个智能 IDE,同时也会将这个需求和具体的开发环节关联起来,包括这些研发规范的嵌入到开发环节,以及代码版本控制等等;到了测试环节,这个是主要是数据 QA 同学介入进来去做一些自动化的测试工作,包括是单元测试或者说一些集成测试,主要是为了验证这个数据的准确性;部署环节相当于是变更要去做线上发布了,现在是支持定义一套标准化的上线流程,每次变更的话能够自动触发这些流水线;在运维阶段是在线上这些任务已经发布,上线之后有会涉及到这个监控告警的闭环管理,以及就是任务智能调优等等;最后一个阶段其实就是这些需求同步的一个及时性,还有就是生产问题的一个自动反馈。
(图:最佳实践案例)
在现场,黄虹也分享了内部影像团队 DataOps 实践情况,总体也是遵循前文提到的从规划到反馈的全流程来进行实践,总体效果情况如下:
- 需求价值反馈:需求支持成本从不可度量->可度量
- 团队效能可度量:DataOps 指标看板,团队效能一目了然
- 全流程质量保障:整套流程运行 1 个 季度,0 生产事故
也符合前文提到的 0987 核心指标体系的要求。
(图:未来展望)
关于数据研发未来的展望,黄虹表示现在数据研发模式可定义为 3.0,它强调的是一个工程化的理念,接下来字节会将 AI 理念集成到研发模式里面,将它从工程化升级为智能化。也就是说字节会将带语言模型的能力集成进来,通过 AI 加持数据生产和数据消费,希望为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路 AI 能力,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。
点击跳转DataLeap了解更多
火山引擎DataLeap:助你实现从数据研发1.0到数据研发3.0的跨越的更多相关文章
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
- 火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
- 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
- 火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
- 还原火山引擎 A/B 测试产品——DataTester 私有化部署实践经验
作为一款面向ToB市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向ToB客户私有化的实际落地中,火 ...
- JuiceFS 在火山引擎边缘计算的应用实践
火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算.网络.存储.安全.智能为核心能力的新一代分布式云计算解决方案. 01- 边 ...
- 火山引擎 A/B 测试产品——DataTester 私有化架构分享
作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...
- 火山引擎 DataTester:让企业“无代码”也能用起来的 A/B 实验平台
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 当数字化变革方兴未艾,无代码正受到前所未有的关注.Salesforce 的数据显示,52%的 IT 部门表示,公司 ...
随机推荐
- Python 利用pymysql和openpyxl操作MySQL数据库并插入Excel数据
1. 需求分析 本文将介绍如何使用Python连接MySQL数据库,并从Excel文件中读取数据,将其插入到MySQL数据库中. 2. 环境准备 在开始本文之前,请确保您已经安装好了以下环境: Pyt ...
- go中的内存逃逸
内存逃逸(memory escape)是指在编写 Go 代码时,某些变量或数据的生命周期超出了其原始作用域的情况.当变量逃逸到函数外部或持续存在于堆上时,会导致内存分配的开销,从而对程序的性能产生负面 ...
- Azure Data Factory(十)Data Flow 组件详解
一,引言 随着大数据技术的不断发展,数据处理和分析变得越来越重要.为了满足企业对数据处理的需求,微软推出了 Azure Data Factory (ADF),它是一个云端的数据集成服务,用于创建.安排 ...
- CSP2023游击
Day-1 上车了,玩了一路. 到酒店里,玩了一晚上. Day 1 爆O! Day 2 走了,玩了一路. AF0了, 哎不是,谁给我反对了 考完了,心情不是很好 分数就不说出来了吧,太低了怕你们笑话我 ...
- ereere
发现没有main函数 搜索start发现有,不过f5后发现不太像 然后在字符串那里搜索flag,点进去,然后f5但是失败了,最后发现得先定位到对应的函数处才能f5 f5 逐个查看函数,找到sub_4 ...
- Verilog HDL组合电路的行为级建模
主要使用关键词initial或always定义的两种结构类型的描述语句,initial主要用于面向仿真的过程语句,不能用来描述硬件逻辑电路的功能. 1.always结构型说明语句 用法: always ...
- [ABC246B] Get Closer
section> Problem Statement From the point $(0,0)$ in a two-dimensional plane, let us move the dis ...
- 记录一个异常 Gradle打包项目Lombok不生效 No serializer found for class com.qbb.User and no properties discovered to create BeanSerializer......
完整的错误: 03-Dec-2022 16:57:22.941 涓ラ噸 [http-nio-8080-exec-5] org.apache.catalina.core.StandardWrapperV ...
- MybatisPlus属性自动填充
阿里巴巴开发规范,对于每一张表都因该有id(主键),createTime(创建时间),updateTime(修改时间)这三个字段 主键ID我们可以使用自增,或者雪花算法 创建时间修改时间我们可以使用数 ...
- .NET周刊【12月第1期 2023-12-06】
国内文章 .NET 与 OpenEuler 共展翅,昇腾九万里 https://www.cnblogs.com/shanyou/p/17858385.html 本文介绍了openEuler操作系统,它 ...