首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
袋鼠云批流一体分布式同步引擎ChunJun(原FlinkX)的前世今生
】的更多相关文章
带你玩转Flink流批一体分布式实时处理引擎
摘要:Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架. 本文分享自华为云社区<[云驻共创]手把手教你玩转Flink流批一体分布式实时处理引擎>,作者: 萌兔之约. Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架.Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理.相较于市面上的其他数据处理引擎,它采用的是基于流计算来模拟批处理. 一.Flink原理及架构 Flink简介 Apache…
DataPipeline CTO陈肃:构建批流一体数据融合平台的一致性语义保证
文 | 陈肃 DataPipelineCTO 交流微信 | datapipeline2018 本文完整PPT获取 | 关注公众号后,后台回复“陈肃” 首先,本文将从数据融合角度,谈一下DataPipeline对批流一体架构的看法,以及如何设计和使用一个基础框架.其次,数据的一致性是进行数据融合时最基础的问题.如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义. 另外,DataPipeline目前使用的基础框架为Kafka Connect.为实现一致性的语义保证,我们做了一些额外工作…
阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期.在去年的Flink Forward China峰会上,阿里宣布将开源Flink的内部分支Blink,把阿里内部对Flink的优化工作全部开放给开源社区,在业内引发热烈讨论,其中有期待也有怀疑.一年后的今天,阿里是否…
统一批处理流处理——Flink批流一体实现原理
实现批处理的技术许许多多,从各种关系型数据库的sql处理,到大数据领域的MapReduce,Hive,Spark等等.这些都是处理有限数据流的经典方式.而Flink专注的是无限流处理,那么他是怎么做到批处理的呢? 无限流处理:输入数据没有尽头:数据处理从当前或者过去的某一个时间 点开始,持续不停地进行 另一种处理形式叫作有限流处理,即从某一个时间点开始处理数据,然后在另一个时间点结束.输入数据可能本身是有限的(即输入数据集并不会随着时间增长),也可能出于分析的目的被人为地设定为有限集(即只分析某…
Flink 是如何统一批流引擎的
关注公众号:大数据技术派,回复"资料",领取1000G资料. 本文首发于我的个人博客:Flink 是如何统一批流引擎的 2015 年,Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文.本文以这篇论文为引导,详细讲讲 Flink 内部是如何设计并实现批流一体的架构. 前言 通常我们在 Flink 中说批流一体指的是这四个方向,其中 Runtime 便是 Flink 运行时的实现.…
袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX
作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在进行产品研发的过程中,技术小哥哥们能文能武,不断提升产品性能和体验的同时,也把这些提升和优化过程记录下来,现录入“袋鼠云研发手记”专栏中,以和业内童鞋们分享交流. 下为“袋鼠云研发手记”专栏第二期,本期作者为袋鼠云数栈引擎团队. 袋鼠云数栈引擎团队 袋鼠云数栈引擎团队拥有多名专家级别,经验丰富的后端…
袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join
作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在进行产品研发的过程中,技术小哥哥们能文能武,不断提升产品性能和体验的同时,也把这些提升和优化过程记录下来,现录入“袋鼠云研发手记”专栏中,以和业内童鞋们分享交流. 下为“袋鼠云研发手记”专栏第三期,本期作者为袋鼠云数栈引擎团队. 袋鼠云数栈引擎团队 袋鼠云数栈引擎团队拥有多名专家级别,经验丰富的后端…
最佳实践:Pulsar 为批流处理提供融合存储
非常荣幸有机会和大家分享一下 Apache Pulsar 怎样为批流处理提供融合的存储.希望今天的分享对做大数据处理的同学能有帮助和启发. 这次分享,主要分为四个部分: 介绍与其他消息系统相比, Apache Pulsar 的独特优势 分析批流处理中的存储需求 讲述 Apache Pulsar 如何完美匹配批流处理中的存储需求 介绍怎样使用 Apache Pulsar 提供批流融合的存储 Apache Pulsar 简介 Apache Pulsar 是新近开源的一个大规模分布式消息系统,是 Ap…
华夏基金X袋鼠云:基金业数字化转型,为什么说用户才是解题答案?
"精准营销是以客户为中心,运用各种可利用的方式,在恰当的时间,以恰当的价格,通过恰当的渠道,向恰当的顾客提供恰当的产品." 这是学者许瑾在科特勒精准营销理论的基础上,从实践的角度对精准营销下过的定义. 作者:阿晗 编辑:向山 在这个金融科技快速发展,资管行业载体与社交媒体.电子商务的融合越来越紧密的时代,华夏基金的实践为行业内外展现了一个数字化转型与精准营销的标杆案例. 2021年4月,华夏基金与袋鼠云达成合作,构建一站式标签体系,搭建画像分析系统,沉淀企业标签资产.由此,华夏基金运用…
DRDS分布式SQL引擎—执行计划介绍
摘要: 本文着重介绍 DRDS 执行计划中各个操作符的含义,以便用户通过查询计划了解 SQL 执行流程,从而有针对性的调优 SQL. DRDS分布式SQL引擎 — 执行计划介绍 前言 数据库系统中,执行计划是对 SQL 如何执行的形式化表示,往往由若干关系操作符构成,用户可以通过对应的 EXPLAIN 命令查看,并通过执行计划大致了解 SQL 的执行过程和执行方式,如全表扫描还是索引扫描,归并连接还是哈希连接等.执行计划可以为用户进行 SQL 调优提供重要依据. DRDS 执行计划 与多数数据库…