当大数据挖掘成为企业赖以生存.发展乃至转型的生命,如何找到一款好软件帮助企业满足需求,成为了许多大数据工程师困扰的问题.但在当下高速发展的大数据领域,光是一款好软件似乎都不足以满足所有场景业务需求,许多企业逐渐将目光转向了技术生态的"外延"--即结合各种场景打造企业适用的技术架构. 那该如何才能打造出一款,用户能够"轻松上手"."简单应用"的软件呢?Apache DolphinScheduler 联合 TiDB 社区共同举办的Meetup将带给你…
随着互联网技术和信息技术的发展,信息的数据化产生了许多无法用常规工具量化.处理和捕捉的数字信息.面对多元的数据类型,海量的信息价值,如何有效地对大数据进行挖掘分析,对大数据工作流进行调度,是保障企业大数据任务高效运行的基础. 有了数据平台和数据仓库,选择什么系统来调度和管理数仓任务就显得尤为重要.Apache DolphinScheduler作为新一代的大数据任务调度系统,致力于让调度变得更加容易.身为一款专门针对于大数据平台的工作调度系统,具有本土化风格和多样化的部署方式.同时,Apache…
今天给大家带来的分享是基于 Apache DolphinScheduler 的持续集成方向实践,分享的内容主要为以下六点: " 研发效能 DolphinScheduler CI/CD 应用案例 DolphinScheduler 平台下的Serverless 理念 基于DolphinScheduler DAG 搭建 CI/CD 流水线的解决方案 模块化组装方案的实践案例 为什么选择 DolphinScheduler 1 研发效能 效率竖井 由局部优化导致,表现为:各个环节和部门繁忙而"高…
在软件开发领域有一个流行的原则:Don't Repeat Yourself(DRY),翻译过来就是:不要重复造轮子.而开源项目最基本的目的,其实就是为了不让大家重复造轮子. 尤其是在大数据这样一个高速发展的领域,现在各类企业都有使用大量的开源软件,当发现开源项目不能满足场景业务需求的时候,越来越多的开发者也开始关注技术生态的"外延",结合各类场景打磨企业适用的技术架构.在此背景下,技术软件如何让更多用户能**"轻松上手"."简单应用"**就显得更…
点击上方 蓝字关注我们 ✎ 编 者 按 成立于 2014 年的 Bigo,成立以来就聚焦于在全球范围内提供音视频服务.面对 4 亿多用户,Bigo 大数据团队打造的计算平台基于 Apache DolphinScheduler 调度系统日均处理 7W+ 作业.Bigo 如何基于 Apache DolphinScheduler 打造离线计算服务平台?Bigo 计算平台负责人在 Apache DolphinScheduler Meetup 2021 上进行了用户案例分享,现将演讲整理如下: 01 建设…
点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾 近期,初灵科技的大数据开发工程师钟霈合在社区活动的线上 Meetup 上中,给大家分享了<基于 Apache DolphinScheduler 对千亿级数据的应用实践>主题演讲. 我们对于千亿级数据量的数据同步需求,进行分析和选型后,初灵科技最终决定使用DolphinScheduler进行任务调度,同时需要周期性调度 DataX.SparkSQL…
摘要:本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局.索引信息来加速点查性能. 本文分享自华为云社区<华为云基于 Apache Hudi 极致查询优化的探索实践!>,作者:FI_mengtao. 背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 FusionInsight MRS智能数据湖解决方案中. 目前主流的三大数据湖组件 Apach…
1. 摘要 Robinhood 的使命是使所有人的金融民主化. Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础. 我们有各种数据源--OLTP 数据库.事件流和各种第 3 方数据源.需要快速.可靠.安全和以隐私为中心的数据湖摄取服务来支持各种报告.关键业务管道和仪表板. 不仅在数据存储规模和查询方面,也在我们在数据湖支持的用例方面,我们从最初的数据湖版本都取得了很大的进展.在这篇博客中,我们将描述如何使用各种开源工具构建基于变更数据捕获的增量摄取,以将我们核心数…
React Native在iOS界早就炒的火热了,随着2015年底Android端推出后,一套代码能运行于双平台上,真正拥有了Hybrid框架的所有优势.再加上Native的优秀性能,让越来越多的公司在实际项目中一探究竟.58同城APP发布模块年代久远,一直计划进行重构以适应日益苛刻的用户体验,这个需求与我们在React Native上一探究竟的意愿一碰撞,就产生了React Native在58APP的开发实践. 本文重点介绍的是实践过程中的技术架构和Native组建层以及热更新平台的基本情况,…
背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 FusionInsight MRS智能数据湖解决方案中. 目前主流的三大数据湖组件 Apache Hudi.Iceberg.Delta各有优点,业界也在不断探索选择适合自己的方案. 华为湖仓一体架构核心基座是 Apache Hudi,所有入湖数据通过 Apache Hudi 承载, 对外通过 HetuEngi…