Apache 首次亚洲在线峰会: Workflow & 数据治理专场
背景
大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需
求越来越多,这使得大数据
业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好、更容易的处理大数据任务关系及更好的实现数据治理呢?
Apache
下与之
密切相关的项目有
Apache DolphinScheduler,
Apache Atlas,
Apache Airflow
,
Apache Oozie,
和 Apache Griffin
。此外我们也邀请到时下非常火的数据湖框架 Apache Hudi 社区的伙伴来分享《
基于 Apache Hudi 数据湖上的 Dolphin 调度器的实践》,敬请关注
。
首先给大家介绍下 Apache 基金会年度盛会
ApacheCon
@ 官方全球系列大会
ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,每年举办一次。作为久负盛名的开源盛宴,是开源界最具期待的大会之一。
自 1998 年开办以来,ApacheCon 已经吸引了超过 350 个技术项目和不同社区参与其中,汇聚海内外的业内专家与老师,分享全球最新的技术动态与实践,共同探讨 "明天的技术",让广大的技术爱好者们看到各技术前沿,有哪些最新趋势和进展,更好的升级自己的技术栈。
今年是组委会首次针对亚太地区举办 ApacheCon 在线大会:ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API / Microservice、互联网、集成、开源文化等 14 个论坛。

关于 Workflow/Data Governance工作流和数据治理 论坛
工作流和数据治理将复杂的数据处理进行有序调度及处理,并在元数据、血缘关系和数据质量等方面进行管控。在 ASF 有多种个项目提供了多种数据工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多种元数据、数据质量的管理。在工作流和数据治理主题中大家不但会了解到一线用户将这些 Apache 项目应用到具体项目当中的实践经验,而且会了解这些 Apache 项目生态的最新进展,同时也将展望数据调度和数据治理方面的愿景。
出品人

郭炜
Apache Member & Apache DolphinScheduler PMC
8月7-8日议程亮点
@ Apache
WORKFLOW/DATA GOVERNANCE
DolphinScheduler 调度工具在运营商的实践
分享嘉宾:王兴杰
时间:8月7日 13:30
议题介绍:
我们选择了 DolphinScheduler,一个更容易扩展、拥有良好容错机制、社区活跃度非常高的开源调度系统。我们将介绍在联通的使用 DolphinScheduler 调度解决办法来面对 >10 万级别日常调度任务。
嘉宾介绍:

王兴杰
14 年毕业后开始从事软件研发工作,7 年研发经验,目前主要负责针对联通大数据的调度系统的研发和迁移工作。
海量复杂任务调度利器 -- Apache DolphinScheduler
分享嘉宾:Qiang Guo
时间:8月7日 14:10
议题介绍:
Apache DolphinScheduler 是海量复杂任务稳定调度的场景需求下顺势而生的一款调度工具,本次议题将围绕其稳定性、易用性等多个方面来介绍 DolphinScheduler。同时,我们也会带来 2.0 - 微内核的架构设计,2.0 后,DolphinScheduler 的各个组件将以 SPI 的形式开放出去,用户可以在这个基础上快速实现自己的特性需求。
嘉宾介绍:

Qiang Guo
Apache DolphinScheduler PMC,高级软件工程师,擅长:网络通信、大数据处理和计算
Airflow 深度实践
分享嘉宾:吴琏
时间:8月7日 14:50
议题介绍:
基于 Airflow 平台在上海数禾科技的真实案例,介绍 Airflow 在复杂场景下应用、运维以及定制开发的实践:
复杂场景的挑战:
跨云分布式部署如何保障高可用;
多类型调度场景如何有效支撑;
ETL 作业如何保障高可用;
调度治理如何开展;
如何做到最大自动化;
同时针对一些业务需求:
数据分析人员有大量的调度需求,DAG Python 脚本开发上手难度大
部门或者个人所属的 DAG 并不想被其他部门人员编辑、查看和手动调度?
DAG 中的作业上线审批效率低、工作量大,如何去提高效率去避免一些非规范化的操作?
消息系统如何触发作业跑批?
分享相应的优化方案:
DAG 配置可视化:界面配置 DAG 参数,后台自动生成 DAG 文件。
DAG 权限控制:分部门分 DAG 赋权,区分读、写、执行。
作业规范化监控:配置检测规则去监控作业是否符合规则,执行相应的提示。
事件触发插件:接收 Sensor 作业和 AMQP 等各类消息,触发相应作业执行。
嘉宾介绍:

吴琏
上海 DataSeed 信息技术大数据开发工程师,2年 airflow 使用、维护和开发经验,对 airflow 有深刻理解,希望我的经验和理解能为 airflow 开源社区贡献一份力量。
基于 Apache Hudi 的数据湖上的 Dolphin 调度器的实践
分享嘉宾:Zhao Yuwei
时间:8 月 7 日 15:30
议题介绍:
数据湖是一个企业级的数据管理平台,用于分析不同类型的数据源。数据湖架构确保了多种数据源的整合,并支持多种数据模式,以确保数据的准确性。它可以满足实时分析的需要,也可以作为数据仓库,满足批量数据挖掘的需要。因此,我们需要一个高效、稳定且易于扩展的任务调度系统来协调数据湖的外部能力,如数据摄取、数据存储、数据探索、数据发现、数据治理等。在这里我将分享我们为什么选择 Apache DolphinScheduler 作为任务调度系统,以及我们如何让数据用户轻松地与数据湖互动,而不必关注太多的技术细节
嘉宾介绍:

Zhao Yuwei
从事 Hadoop 相关的开发工作,目前主要工作方向是任务调度系统的研发。
新一代大数据工作流调度平台 -- Apache DolphinScheduler 的架构演变
分享嘉宾:Lidong Dai
时间:8 月 8 日 13:30
议题介绍:
主要包括以下六个部分:
第一,DolphinScheduler的介绍
第二,大数据工作流调度平台的痛点
第三,DolphinScheduler的优势
第四,从1.2版到1.3版的架构演变
第五,架构2.0的路线图 & Roadmap
最后,分享一些用户案例
嘉宾介绍:

LIDONG DAI
Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大数据经验,擅长大型数据平台建设和优化
基于 Apache DolphinScheduler 的数据质量服务实践
分享嘉宾:孙朝和
时间:8 月 8 日 14:10
议题介绍:
此次演讲主要是分享基于 DolphinScheduler 的数据质量服务的设计思路、实现方式以及如何在实际场景中去应用
嘉宾介绍:

孙朝和
在大数据平台开发上具有丰富的经验,热爱并积极参与开源,是 DolphinScheduler 资深代码贡献者
使用 Airflow 在 Kubernetes 进行数据处理
分享嘉宾:栾鹏
时间:8 月 8 日 14:50
议题介绍:
1、为什么我们用 airflow+K8S
2、airflow oa/rbac/web
3、airflow 运行在 docker/docker-compose/k8s上
4、airflow kubernetes-operator
5、airflow k8s pod 插件
6、airlfow 更新友好
7、在腾讯音乐的使用情况
嘉宾介绍:

栾鹏
腾讯音乐数据中心,从事云原生机器学习平台和数据平台相关内容的建设
DolphinScheduler 工作流 DAG 大 JSON 拆分详解及规划
分享嘉宾:lijinyong
时间:8 月 8 日 15:30
议题介绍:
目前 DolphinScheduler 的过程定义使用一个很大的 Json 存储的,这在任务比较大的时候效率不高。我将介绍我们的解决方案来解决这个问题,同时该方案也已经提交到Apache DolphinScheduler,将在近期发布。
嘉宾介绍:

lijinyong
DolphinScheduler 社区活跃贡献者,开源积极分子,现就职于政采云大数据部门,从事大数据平台架构工作,擅长大数据平台及数仓工具的设计与研发,线上 troubleshooting 等
我们在 工作流和数据治理 不见不散 !!!
报名方式
ApacheCon Asia 2021
8月6日-8日
14 个论坛,100+ 技术项目
140+ 场议题演讲
连线对话全球技术大咖与专家
满满3天全天候交流盛会
全程免费参加
ApacheCon 亚洲首场线上虚拟大会
2021年8月6日-8日
期待朋友们的到来
点击原文,即可报名
ApacheCon Asia 2021
https://www.apachecon.com/acasia2021/


点击阅读原文,即可报名,点亮再看,您最好看
Apache 首次亚洲在线峰会: Workflow & 数据治理专场的更多相关文章
- 数据治理的王者——Apache Atlas
一.Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题. 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治 ...
- 数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 大数据下的数据治理作为很多企业的一个巨大的 ...
- Github 1.9K Star的数据治理框架-Amundsen
Amundsen的使命,整理有关数据的所有信息,并使其具有普遍适用性. 这是Amundsen官网的一句话,对于元数据的管理工作,复杂且繁琐.可用的工具很多各有千秋,数据血缘做的较好的应该是Apache ...
- 数据治理之元数据管理的利器——Atlas入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...
- 使用 Apache Atlas 进行数据治理
本文由 网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采 ...
- ApacheCon 首次亚洲大会火热来袭,SphereEx 邀您共赴年度盛会!
ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会.作为久负盛名的开源盛宴,ApacheCon 在开源界备受关注,也是开源运动早期的知名活动之一. ApacheCon 每年举 ...
- DataHub——实时数据治理平台
DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关. 数据治理是大佬们最近谈的一个火热的话题.不管国家层面,还是企业层面现在对这个问题是越 ...
- 【转】Apache Kylin 2.0为大数据带来交互式的BI
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被 ...
- Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践
牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践 我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践 ...
随机推荐
- 个人冲刺(六)——体温上报app(二阶段)
冲刺任务:完成主页面功能 MainActivity.java package com.example.helloworld; import android.app.AlertDialog; impor ...
- Fail2ban 命令详解 fail2ban-client
Fail2ban的客户端操作命令,用于控制服务端. root@ubuntu:~# fail2ban-client --help Usage: /usr/bin/fail2ban-client [OPT ...
- jupyter notebook修改默认浏览器
1. anaconda集成了python以及各种库.python和anaconda可二选一. 2. anaconda或python安装后记得把pip源改为国内的镜像源地址.比如163,阿里,清华以及南 ...
- python爬虫之JS逆向
Python爬虫之JS逆向案例 由于在爬取数据时,遇到请求头限制属性为动态生成,现将解决方式整理如下: JS逆向有两种思路: 一种是整理出js文件在Python中直接使用execjs调用js文件(可见 ...
- C语言学习之我见-malloc和free内存申请及释放函数
malloc函数负责向计算机申请确定大小的内存空间. free函数负责释放malloc的申请空间. (1)函数原型 void free(void *_Memory); void * malloc(si ...
- 全新升级的AOP框架Dora.Interception[1]: 编程体验
多年之前利用IL Emit写了一个名为Dora.Interception(github地址,觉得不错不妨给一颗星)的AOP框架.前几天利用Roslyn的Source Generator对自己为公司写的 ...
- JS:相等判断
1.= 赋值运算符 错误写法:a+b = c; 2.== :=== ==判断值是否相等 例: var a = 2; var b = 3; var c = a+b; var d = "2&q ...
- 自己封装的tools.js文件
/* * 生成指定范围的随机整数 * @param lower 下限 * @param upper 上限 * @return 返回指定范围的随机整数,上/下限值均可取 */ function rand ...
- python基础知识-day6(函数知识)
1.函数的特点 函数式的编程范式 面向对象的编程范式 所谓函数,就是把重复的代码单独的分离出来,放在一个公共的地方,以后可以一只调用,这样就可以解决多次重复来编写. 2.函数的定义 1 def fun ...
- 自然常数e的由来以及计算机为什么是二进制
背景 昨晚我在看一本书,叫<数学极客>,看到第六章<e:不自然的自然数>,这个数最早开始接触应该是高一的时候,那时候问老师,这个数是怎么来的,老实说,和圆周率一样,是一个常 ...