字节跳动基于DataLeap的DataOps实践
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
字节跳动数据研发的模式与挑战
中台工具+数据BP模式
数据BP的核心指标:0987
来自质量挑战
- 链路复杂:最长任务全链路节点数量上千个,单个任务的的下游数量最大也达到了千级别
- 变更频繁:每周仅直播数据团队数据链路变更次数就能达到上千次,涉及风险场景上百次
- 事故易发:质量事故时有发生,22年全年数据研发事故涉及到研发规范的占比56%
来自硬件成本的挑战
来自人效的挑战
- 如何证明团队当前的状态是高效的?
- 如何用更少的人员创造更大的业务价值?
DataOps理念在字节的具象
信通院关于DataOps的定义
- 数据研发运营一体化(DataOps):是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。
我们的理解
- DataOps是作用于人+流程+工具的一套方法论,目标是提高数据质量和开发效率,主要通过敏捷协作、自动化/智能化、以及清晰的度量监测,让数据流水线达到持续集成、部署、交付(CI/CD),在DataLeap体系内,DataOps主要以规范研发流程为目的,涵盖对规范研发流程的“已有能力集成”,形成一站式研发体验,同时也包括规范研发流程所需关键的“新能力建设+集成”,除此以外的数据开发基础能力迭代不作为DataOps的一部分
DataOps产品化及落地-DataLeap
DataOps敏捷规范研发平台
需求管理
流水线管理
最佳实践
推广运营:如何在公司范围内大规模落地DataOps?
鲶鱼效应
拆箱即用
自顶向下
指标牵引
管理者视角
开发者视角
- 认可&执行:规范本身是反人性的,在团队内落地DataOps需要充分沟通,结合团队调整与个人发展,讲清为什么,避免粗暴落地
- 参与&贡献:构建人人可参与的开发环境,让数据开发可以深度的参与到流程制定与落地的过程中来,促进个人影响力的提升
收益度量
- 规范:在不同方向上规范制定与复用,保障流程100%落地
- 质量:系统性的解决风险场景上的研发流程问题,因研发流程导致的数据质量事故数归0
- 效率:通过更可靠的交付避免返工,同时叠加提效能力,预计可提升研发在业务需求满足中的开发效率10%+
未来展望
业务价值
- 数据需求价值度量标准
- 基于需求价值最大化的调度策略
质量与效率
- 基于大模型的需求对接能力
- 基于大模型辅助开发的能力
- 低成本的数据测试及验证能力
对外开放
点击跳转火山引擎DataLeap了解更多
字节跳动基于DataLeap的DataOps实践的更多相关文章
- 字节跳动基于Apache Hudi构建EB级数据湖实践
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的 ...
- 字节跳动基于ClickHouse优化实践之“多表关联查询”
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻.但在字节大量 ...
- 字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化
背景 字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务.其中一个典型场景是 Kafka/ByteM ...
- 深度介绍Flink在字节跳动数据流的实践
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践. 字节跳动数据流 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 字节跳动在 Go 网络库上的实践
https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作为研发体系中重要的一环,承载了几乎所有的服务流量.本文将简单介绍字节跳动自研网络库 n ...
- Presto 在字节跳动的内部实践与优化
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询.BI 可视化分析.近实时查询分析等场景,日查询量接近 100 万条.本文是字节跳动数据平台 Presto 团队-软件工程师常鹏飞在 Pre ...
- 字节跳动构建Data Catalog数据目录系统的实践(上)
作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系.本文介绍了字节跳动 Data ...
- 字节跳动数据平台技术揭秘:基于 ClickHouse 的复杂查询实现与优化
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 ClickHouse 作为目前业内主流的列式存储数据库(DBMS)之一,拥有着同类型 DBMS 难以企及 ...
随机推荐
- Golang后端大厂面经!
大家好,我是阳哥.专注Go语言的学习经验分享和就业辅导. 之前分享了很多 Golang 后端的大厂面经,不少同学在催更新,这篇给大家继续安排. 本文来自一位同学的投稿,面试深X服的面经汇总,前半部分主 ...
- 阿里云上的rds 的隔离级别read committed 而不是repeatable-read设置原因
阿里云上的rds 的隔离级别 是read committed ,而不是原生mysql的"可重复读(repeatable-read)",他们是基于什么原因这样设置的? show va ...
- 一篇文章让你理解:什么是Spring???
背景 市场上,随便一个Java工程师的招牌要求上,都可以看到SSM.Spring.SpringMVC...类似字样.这玩意到底是个啥? 这是中邮消费招聘的岗位要求,可以看到第3点: 3.熟悉Strut ...
- Dash应用浏览器端回调常用方法总结
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/dash-master 大家好我是费老师,回调函数是我们在Dash应用中实现各种交互功能的核心,在绝大 ...
- 七天.NET 8操作SQLite入门到实战 - 第二天 在 Windows 上配置 SQLite环境
前言 SQLite的一个重要的特性是零配置的.无需服务器,这意味着不需要复杂的安装或管理.它跟微软的Access差不多,只是一个.db格式的文件.但是与Access不同的是,它不需要安装任何软件,非常 ...
- 学习JavaScript的第一天
JavaScript概述 JavaScript的介绍 js属于一门面向对象的编程语言 属于跨平台 面向对象(oop) 以对象方式实现所有的功能 跨平台:js代码不论是在什么样的操作系统上执行结果都是一 ...
- 《最新出炉》系列初窥篇-Python+Playwright自动化测试-34-处理https 安全问题或者非信任站点-下篇
1.简介 这一篇宏哥主要介绍playwright如何在IE.Chrome和Firefox三个浏览器上处理不信任证书的情况,我们知道,有些网站打开是弹窗,SSL证书不可信任,但是你可以点击高级选项,继续 ...
- 【生活技巧记录】歌词Lyric生成及音乐标签嵌入
前置工具准备: BesLyric:一款专门制作 网易云音乐 LRC 滚动歌词的软件! 搜索.下载.制作 歌词更方便! Foobar 2000:一款适用于 Windows 平台的高级免费软件音频播放器 ...
- 三分钟使用github的技巧
一.GitHub搜索技巧--找开发者 搜索条件 备注 location: location:china,匹配用户填写的地址在china language: language:javascript,匹配 ...
- [ICPC2014WF]Sensor Network
题目描述 A wireless sensor network consists of autonomous sensors scattered in an environment where they ...