日均 6000+ 实例，TB 级数据流量，Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”？

【日均 6000+ 实例，TB 级数据流量，Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”？】的更多相关文章

日均 6000+ 实例，TB 级数据流量，Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”？

作者 | 胡泽康鄞乐炜作者简介胡泽康联通(广东)产业互联网公司大数据工程师,专注于开源大数据领域,从事大数据平台研发工作鄞乐炜联通(广东)产业互联网公司大数据工程师,主要从事大数据平台的应用与引擎端开发 01 背景介绍我们是联通医疗团队,一直践行 "服务医改,惠及民生" 的使命,全面驱动医疗健康产业数字化.智能化转型. 在调度系统选型初期,我们团队技术栈以 JVM 语言为主,由于 Airflow 的结构体系无法进行充分的改造和融合,因此在开源调度系统的选择上,我们主…

大数据平台迁移实践 | Apache DolphinScheduler 在当贝大数据环境中的应用

大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用. 本次演讲主要包含四个部分: 平台建设的背景大数据平台重构大数据调度平台建设下一步规划王昱翔当贝大数据平台基础开发工程师毕业于电子科技大学,主要是做大数据平台的构建.集成及组件的运维的工作. 01 背景在当贝网络科技使用 Apache DolphinScheduler 作为大数据调度平台之前,我们在…

大数据平台的技术演化之路诸葛io平台设计实例

如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理.识别.加工.呈现,最后成为指导企业业务发展的知识和智慧.而处理.识别.加工.呈现的过程从本质上来讲,就是实现对数据的采集.清洗.加工.加载.建模分析,再到可视化的过程. 大数据平台的通用架构 1. 数据采集采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下: - 企业服务器的日志: - 企业各种信息系统的数据(CRM/ERP/数据库): - 企业的网站/App/小程序等客户端的…

Apache Kylin在4399大数据平台的应用

来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业.有多年的嵌入式开发.系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设. 本文介绍了 4399 大数据团队在公司大数据平台上应用 Kylin 的实践经验,并基于应用中遇到的问题给出了对应的优化建议.背景在开始案例分享前,先简单介绍一下 4399 以及 4399 的大数据团队 4399 是中国最早的和领先的在线休闲小…

Apache Flink 为什么能够成为新一代大数据计算引擎？

众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速度与灵活性. 大数据时代对人类的数据驾驭能力提出了新的挑战,Flink 的诞生为企业用户获得更为快速.准确的计算能力提供了前所未有的空间与潜力.作为公认的新一代大数据计算引擎,Flink 究竟以何魅力成为阿里.腾讯.滴滴.美团.字节跳动.Netflix.Lyft 等国内外知名公司建设流计算平台的首选…

【喜讯】Apache DolphinScheduler 荣获 “2020 年度十大开源新锐项目”

经 10000+ 开发者公开票选,20+专家评审. 10+ 主编团打分,历经数月打磨,11 月 19 日,由InfoQ 发起并组织的[2020中国技术力量年度榜单评选]结果正式揭晓. 2020 年度十大开源新锐项目.2020 年度十大开源杰出贡献人物.2020 年度十大云原生创新技术方案以及 2020 年度十大云原生行业落地典范四大榜单,其中 2020 年度十大开源新锐项目囊括了最近三年内,开源领域活跃度最高.最具创新性和发展潜质的项目,年度开源新锐项目评选受欢迎程度更是成为四大榜单之最.Apa…