数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
本文讲述字节跳动一款 App 产品的数据治理故事。该产品随着用户体量和数据体量不断增长,数仓的任务量、数据量也不断攀升,运维难、成本贵、稳定性等问题在不断凸显。通过使用火山引擎 DataLeap 的数据治理能力,3 个月时间将计算成本大幅缩减 20%。
该产品是一款近千万级 DAU 的产品,疫情 3 年,催生了大量的线下需求转型至线上,海量的数据虽然为产品创造了巨大的价值,但是也增高了计算成本和存储成本。“成本治理专项”成为了这个产品的重要工作之一,为了解决数据治理的问题,产品接入了火山引擎自研的大数据开发套件——DataLeap,主要围绕下述两个场景进行成本治理:
1. 快速启动并获得收益
大数据场景下计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源。计算场景也因此成为该产品数仓团队成本治理的关键切入点。
通过 DataLeap,数仓团队可以设置明确治理目标,并配置治理域,通过选定各种规则的任务治理,比如关闭/下线无效任务、优化高耗时并且占用资源 TopN 任务、优化资源申请不合理 TopN 任务、优化表产出小文件 TopN 任务等,由此对队列阻塞情况进行改善,完成阶段性进行缩容。
DataLeap 还支持对任务执行进行全链路监控,自动发现这些异常的计算任务,并在工作台进行展示,让数据研发人员可以查看相应任务,并采取治理措施。
2. 按季度持续治理
数据治理是一项长期性、系统性的工作,通过 DataLeap 平台,该产品优先实现了数据按季度持续治理。
DataLeap 平台提供一系列任务圈选规则,可以圈选出无效、高耗时、资源申请不合理、小文件异常、近 7 天内无更新、写入数据、近 90 天无访问表等规则,进行定期扫描,由此实现周期性成本治理。除此之外,DataLeap 还提供通知、一键拉群等治理运营操作,支持查看治理效果,沉淀治理经验,有效推动数仓团队成本推动进展。
其次,为了能更直观监测到数仓健康度、量化治理效果,产品团队还引入了 DataLeap「健康分」体系。一旦出现健康分不达标情况,会及时限制产品使用资源比例、资源申请等。DataLeap 还支持繁忙和闲置时段队列资源利用率的监测,可以帮助飞书数仓团队优化任务调度措施。
最终,该产品的数仓团队主要从 YARN 和 HDFS 切入,在引入 DataLeap 的三个月内,快速落地成本治理项目。在计算治理场景,实现 YARN 队列成本降低 20%;在存储治理场景,已释放 7PB 存储空间。
计算治理
达成目标:缩容 20% 的 CPU core,YARN 队列成本降低 20%
治理场景
回收低使用率/老旧队列
无效任务下线
高耗时任务 &占用资源 TOP N 优化
存储治理场景
达成目标:释放 7PB 存储空间
随着数据的不断累积和业务的不断发展,大数据的体量将会变得越来越大,而随之而来的庞大成本,也成为了大数据建设中越来越无法忽视的问题。
火山引擎 DataLeap 基于字节跳动业务场景和实践经验,沉淀有一套完整的数据质量、SLA 治理、资源优化、告警优化的能力,可以为业务提供流畅顺滑的数据治理体验;在流程上,覆盖规划式、响应式的用户数据治理双路,同时与各业务密切配合,落地和沉淀多项治理规则。
点击跳转 大数据研发治理套件 DataLeap 了解更多
数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%的更多相关文章
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
- 火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
- 火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
- 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
- JuiceFS 在火山引擎边缘计算的应用实践
火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算.网络.存储.安全.智能为核心能力的新一代分布式云计算解决方案. 01- 边 ...
- 企业级数据治理工作怎么开展?Datahub这样做
大数据发展到今天,扮演了越来越重要的作用.数据可以为各种组织和企业提供关键决策的支持,也可以通过数据分析帮助发现更多的有价值的东西,如商机.风险等等. 在数据治理工作开展的时候,往往会有一个专门负责数 ...
- 使用 Apache Atlas 进行数据治理
本文由 网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采 ...
- Nebula Graph 在微众银行数据治理业务的实践
本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...
随机推荐
- Hyper-V中的虚拟机(Centos)安装FTP服务
linux上是否装上了ftp服务命令: rpm -qa | grep vsftpd ,若没有安装(无显示版本号)则进行下一步 安装ftp服务,命令: yum -y install ftp vsftpd ...
- IT运营与DevOps:有何不同?
IT 运营和 DevOps 满足许多现代企业密切相关的需求.然而,尽管这两种角色之间有许多相似之处,但也有重要的区别,将 IT 运营与 DevOps 混为一谈是错误的. 本文通过解释每种类型的角色是做 ...
- easy_enc
寻找main函数,步过好像没有main函数,这时候想要F5就只能找到对的函数了 F5以后发现进行的操作有很多,这里发现有几个都没用的 后面发现主要是对V5有操作,所以直接看有关于V5的操作函数 经过上 ...
- 简述几个我们对Redis 7开源社区所做的贡献
Redis 7 已经于2022年4月28号正式发布,其中包括了将近50个新的命令,增加了许多新的特性,并且在整个Redis 6到Redis 7的开发过程中,我也对Redis 的开源社区贡献了一些微薄的 ...
- 第五周阅读笔记|人月神话————胸有成竹(Calling the Shot)
这个章节标题是胸有成竹,而要做到胸有成竹就必须在项目计划阶段我们对项目的预测和估算都需要很准确.因此整个章节的内容就是在讲估算,而估算就涉及到预测和估算模型,估算要做到准确必须通过前期多个历史项目和版 ...
- 什么是cursor?怎么使用cursor?
Cursor 在Android查询数据时就是通过Cursor类来实现的.当我们使用SQLiteDatabase.query()方法时,就会得到Cursor对象,Cursor所指向的就是每一条数据. 举 ...
- 教育管理工具类 APP 在智慧校园中的应用探究?
智慧校园是指利用信息化技术,将学校的管理.教育教学等方面进行整合和优化,实现校园运行的智能化和高效化. 在智慧校园建设中,教育管理工具类APP发挥着重要的作用.本文将详细探究教育管理工具类APP在智慧 ...
- C++ Qt开发:PushButton按钮组件
Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍QPushBu ...
- .NET Conf 2023 Chengdu - 成都站圆满结束!
今年的.NET Conf 2023,中国区首次有两个会场举办Local Event,成都会场已于上周六12月9日圆满结束. 本次成都会场共计100+余名.NET开发者报名参与,共计10+名志愿者参与筹 ...
- 教你使用Prometheus-Operator进行K8s集群监控
本文分享自华为云社区<Promethues-operator入门使用指导>,作者:可以交个朋友. 一. 背景 在非operator配置的普罗中我们监控k8s集群都是通过配置configma ...