数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
本文讲述字节跳动一款 App 产品的数据治理故事。该产品随着用户体量和数据体量不断增长,数仓的任务量、数据量也不断攀升,运维难、成本贵、稳定性等问题在不断凸显。通过使用火山引擎 DataLeap 的数据治理能力,3 个月时间将计算成本大幅缩减 20%。
该产品是一款近千万级 DAU 的产品,疫情 3 年,催生了大量的线下需求转型至线上,海量的数据虽然为产品创造了巨大的价值,但是也增高了计算成本和存储成本。“成本治理专项”成为了这个产品的重要工作之一,为了解决数据治理的问题,产品接入了火山引擎自研的大数据开发套件——DataLeap,主要围绕下述两个场景进行成本治理:
1. 快速启动并获得收益
大数据场景下计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源。计算场景也因此成为该产品数仓团队成本治理的关键切入点。
通过 DataLeap,数仓团队可以设置明确治理目标,并配置治理域,通过选定各种规则的任务治理,比如关闭/下线无效任务、优化高耗时并且占用资源 TopN 任务、优化资源申请不合理 TopN 任务、优化表产出小文件 TopN 任务等,由此对队列阻塞情况进行改善,完成阶段性进行缩容。
DataLeap 还支持对任务执行进行全链路监控,自动发现这些异常的计算任务,并在工作台进行展示,让数据研发人员可以查看相应任务,并采取治理措施。
2. 按季度持续治理
数据治理是一项长期性、系统性的工作,通过 DataLeap 平台,该产品优先实现了数据按季度持续治理。
DataLeap 平台提供一系列任务圈选规则,可以圈选出无效、高耗时、资源申请不合理、小文件异常、近 7 天内无更新、写入数据、近 90 天无访问表等规则,进行定期扫描,由此实现周期性成本治理。除此之外,DataLeap 还提供通知、一键拉群等治理运营操作,支持查看治理效果,沉淀治理经验,有效推动数仓团队成本推动进展。
其次,为了能更直观监测到数仓健康度、量化治理效果,产品团队还引入了 DataLeap「健康分」体系。一旦出现健康分不达标情况,会及时限制产品使用资源比例、资源申请等。DataLeap 还支持繁忙和闲置时段队列资源利用率的监测,可以帮助飞书数仓团队优化任务调度措施。
最终,该产品的数仓团队主要从 YARN 和 HDFS 切入,在引入 DataLeap 的三个月内,快速落地成本治理项目。在计算治理场景,实现 YARN 队列成本降低 20%;在存储治理场景,已释放 7PB 存储空间。
计算治理
达成目标:缩容 20% 的 CPU core,YARN 队列成本降低 20%
治理场景
回收低使用率/老旧队列
无效任务下线
高耗时任务 &占用资源 TOP N 优化
存储治理场景
达成目标:释放 7PB 存储空间
随着数据的不断累积和业务的不断发展,大数据的体量将会变得越来越大,而随之而来的庞大成本,也成为了大数据建设中越来越无法忽视的问题。
火山引擎 DataLeap 基于字节跳动业务场景和实践经验,沉淀有一套完整的数据质量、SLA 治理、资源优化、告警优化的能力,可以为业务提供流畅顺滑的数据治理体验;在流程上,覆盖规划式、响应式的用户数据治理双路,同时与各业务密切配合,落地和沉淀多项治理规则。
点击跳转 大数据研发治理套件 DataLeap 了解更多
数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%的更多相关文章
- 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做
摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...
- 火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
- 火山引擎DataLeap数据调度实例的 DAG 优化方案
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...
- 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...
- JuiceFS 在火山引擎边缘计算的应用实践
火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算.网络.存储.安全.智能为核心能力的新一代分布式云计算解决方案. 01- 边 ...
- 企业级数据治理工作怎么开展?Datahub这样做
大数据发展到今天,扮演了越来越重要的作用.数据可以为各种组织和企业提供关键决策的支持,也可以通过数据分析帮助发现更多的有价值的东西,如商机.风险等等. 在数据治理工作开展的时候,往往会有一个专门负责数 ...
- 使用 Apache Atlas 进行数据治理
本文由 网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采 ...
- Nebula Graph 在微众银行数据治理业务的实践
本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...
随机推荐
- 关于Linux性能监控之CPU篇详解
http://news.chinaunix.net/opensource/2013/0228/2654519.shtml # vmstat 1 procs -----------memory----- ...
- ConfigureAwait in .NET8
ConfigureAwait in .NET8 ConfigureAwait(true) 和 ConfigureAwait(false) 首先,让我们回顾一下原版 ConfigureAwait 的语义 ...
- EMCC13.5+Oracle19.13+Redhat8 In Silent Mode
问题描述:使用静默的方式来安装emcc13.5+Oracle19.13,准备好19c的oracle环境,一开始用21c的库+emcc13.5的安装检查一直过不去,但是19c是没有问题的,具体问题会在下 ...
- 公司要做大数据可视化看板,除了EXCEL以外有没有好用的软件可以用
当企业需要进行大数据可视化看板的设计和开发时,除了Excel,还有许多其他强大且适合大数据可视化的软件工具.以下是几种常用的好用软件,以及它们的特点和优势,供您参考. 一.Datainside 特点和 ...
- 【UniApp】-uni-app-OptionAPI应用生命周期和页面生命周期
前言 好,经过上个章节的介绍完毕之后,了解了一下 uni-app-修改组件主题和样式 那么了解完了uni-app-修改组件主题和样式之后,这篇文章来给大家介绍一下 uni-app-OptionAPI应 ...
- springboot的缓存和redis缓存,入门级别教程
一.springboot(如果没有配置)默认使用的是jvm缓存 1.Spring框架支持向应用程序透明地添加缓存.抽象的核心是将缓存应用于方法,从而根据缓存中可用的信息减少执行次数.缓存逻辑是透明地应 ...
- VUE2.0 学习 第一组
本笔记主要参考菜鸟教程和官方文档编写. 1. 对于Vue2.0来说每个vue应用都需要实例化vue来实现. var vm = new Vue({ // 选项 }) 2.首先,DOM是一种api,它可以 ...
- docker开启或关闭<开机自启容器>
启动容器时设置 docker run --restart=always 启动完成也可以修改 docker update --restart=always <容器ID> 想取消容器自启 do ...
- 华企盾DSC在苹果电脑上申请审批没有通知
由于系统通知这里没有允许DSC通知,开启后即可.系统偏好设置-通知与专注模式-通知
- 国家专用加密数据传输之rsa,3des加密方法-rasor3desc
title: 国家专用加密数据传输之rsa,3des加密方法 date: 2021-12-20 13:08:21.646 updated: 2022-03-10 16:00:58.65 url: ht ...