字节跳动基于DataLeap的DataOps实践
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
字节跳动数据研发的模式与挑战
中台工具+数据BP模式
数据BP的核心指标:0987
来自质量挑战
- 链路复杂:最长任务全链路节点数量上千个,单个任务的的下游数量最大也达到了千级别
- 变更频繁:每周仅直播数据团队数据链路变更次数就能达到上千次,涉及风险场景上百次
- 事故易发:质量事故时有发生,22年全年数据研发事故涉及到研发规范的占比56%
来自硬件成本的挑战
来自人效的挑战
- 如何证明团队当前的状态是高效的?
- 如何用更少的人员创造更大的业务价值?
DataOps理念在字节的具象
信通院关于DataOps的定义
- 数据研发运营一体化(DataOps):是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。
我们的理解
- DataOps是作用于人+流程+工具的一套方法论,目标是提高数据质量和开发效率,主要通过敏捷协作、自动化/智能化、以及清晰的度量监测,让数据流水线达到持续集成、部署、交付(CI/CD),在DataLeap体系内,DataOps主要以规范研发流程为目的,涵盖对规范研发流程的“已有能力集成”,形成一站式研发体验,同时也包括规范研发流程所需关键的“新能力建设+集成”,除此以外的数据开发基础能力迭代不作为DataOps的一部分
DataOps产品化及落地-DataLeap
DataOps敏捷规范研发平台
需求管理
流水线管理
最佳实践
推广运营:如何在公司范围内大规模落地DataOps?
鲶鱼效应
拆箱即用
自顶向下
指标牵引
管理者视角
开发者视角
- 认可&执行:规范本身是反人性的,在团队内落地DataOps需要充分沟通,结合团队调整与个人发展,讲清为什么,避免粗暴落地
- 参与&贡献:构建人人可参与的开发环境,让数据开发可以深度的参与到流程制定与落地的过程中来,促进个人影响力的提升
收益度量
- 规范:在不同方向上规范制定与复用,保障流程100%落地
- 质量:系统性的解决风险场景上的研发流程问题,因研发流程导致的数据质量事故数归0
- 效率:通过更可靠的交付避免返工,同时叠加提效能力,预计可提升研发在业务需求满足中的开发效率10%+
未来展望
业务价值
- 数据需求价值度量标准
- 基于需求价值最大化的调度策略
质量与效率
- 基于大模型的需求对接能力
- 基于大模型辅助开发的能力
- 低成本的数据测试及验证能力
对外开放
点击跳转火山引擎DataLeap了解更多
字节跳动基于DataLeap的DataOps实践的更多相关文章
- 字节跳动基于Apache Hudi构建EB级数据湖实践
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的 ...
- 字节跳动基于ClickHouse优化实践之“多表关联查询”
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻.但在字节大量 ...
- 字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化
背景 字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务.其中一个典型场景是 Kafka/ByteM ...
- 深度介绍Flink在字节跳动数据流的实践
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践. 字节跳动数据流 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 字节跳动在 Go 网络库上的实践
https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作为研发体系中重要的一环,承载了几乎所有的服务流量.本文将简单介绍字节跳动自研网络库 n ...
- Presto 在字节跳动的内部实践与优化
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询.BI 可视化分析.近实时查询分析等场景,日查询量接近 100 万条.本文是字节跳动数据平台 Presto 团队-软件工程师常鹏飞在 Pre ...
- 字节跳动构建Data Catalog数据目录系统的实践(上)
作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系.本文介绍了字节跳动 Data ...
- 字节跳动数据平台技术揭秘:基于 ClickHouse 的复杂查询实现与优化
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 ClickHouse 作为目前业内主流的列式存储数据库(DBMS)之一,拥有着同类型 DBMS 难以企及 ...
随机推荐
- CF85B [Embassy Queue]
Problem 题目简述 有 \(n\) 个人分别在 \(c_i\) 的时刻来,他们都要在 \(k_1\),\(k_2\) 和 \(k_3\) 窗口干不同的事,当有后面一人也排在在同一窗口时,必须等待 ...
- mysql常用函数详解
1. Mysql内置函数分类及使用范围 数学函数: 这类函数只要用于处理数字.这类函数包括绝对值函数.正弦函数.余弦函数.获取随机数函数等. 字符串函数:这类函数主要用于处理字符串.其中包括字符串连接 ...
- windows 下终止nginx 进程 重新启动nginx
进入cmd 输入一下命令 删除nginx所有进程 taskkill /f /t /im nginx.exe
- 神经网络入门篇:详解向量化实现的解释(Justification for vectorized implementation)
向量化实现的解释 先对几个样本计算一下前向传播,看看有什么规律: 公式1.16: \(z^{[1](1)} = W^{[1]}x^{(1)} + b^{[1]}\) \(z^{[1](2)} = W^ ...
- 利用Jdk动态代理模拟MyBatis的Mapper功能
本文将先介绍jdk动态代理的基本用法,并对其原理和注意事项予以说明.之后将以两个最常见的应用场景为例,进行代码实操.这两个应用场景分别是拦截器和声明性接口,它们在许多开发框架中广泛使用.比如在spri ...
- 数据库系列:MySQL不同操作分别用什么锁?
数据库系列:MySQL慢查询分析和性能优化 数据库系列:MySQL索引优化总结(综合版) 数据库系列:高并发下的数据字段变更 数据库系列:覆盖索引和规避回表 数据库系列:数据库高可用及无损扩容 数据库 ...
- 使用mumu模拟器抓包 andriod app
背景 公司H5嵌入到农行手机app里面.某天有人反馈进入国内机票订单详情时,应用崩溃了,如下图: 经过测试,此问题仅在安卓手机中出现,且其他页面都正常.于是我怀疑可能是这个页面代码有问题,想着能否抓包 ...
- 快速认识什么是:Kubernetes
每次谈到容器的时候,除了Docker之外,都会说起 Kubernetes,那么什么是 Kubernetes呢?今天就来一起学快速入门一下 Kubernetes 吧!希望本文对您有所帮助. Kubern ...
- [ABC235G] Gardens
Problem Statement Takahashi has $A$ apple seedlings, $B$ banana seedlings, and $C$ cherry seedlings. ...
- 【问题解决】unable to do port forwarding: socat not found
问题复现 前阵子应公司要求做华为云平台的调研,写了一篇文档包含将华为云CCE下载kuberctl配置及使用kubectl转发流量到本地的操作. 今天一早上同事就发来一个错误界面,说是Java远程调试转 ...