感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作. 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景:AWS 在 EMR 服务中 预安装 了 Apache Hudi,为用户提供高效的 record-level updates/deletes 和高效的数据查询管理:Uber 已经稳定运行 Apache Hudi 服务 4…
近年来出现了从单体架构向微服务架构的转变.微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间.但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难.为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方. AWS 提供复制工具,例如 AWS Database Migration Service (AWS DMS),用于将数据更改从各种源数据库复制到各种目标,包括 Amazon Simple Storage Service (Amazon S…
Apache Flink是什么 Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理.这个目标看起来和Spark和类似.没错,Flink也在尝试解决 Spark在解决的问题.这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用.所以,Flink和Spark的目 标差别并不大,他们最主要的区别在于实现的细节,后面我会重点从不同的角度对比这两者. Apache Spark vs Apache Flink 1.抽象 Abstraction Spark中,对…
01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation of Piotr Nowojski’s presentation from Flink Forward Berlin 2017. You can find the slides and a recording of the presentation on the Flink Forward Berlin we…
本文不会涉及太多技术细节和源码,请放心食用 大家好,我是 HelloGitHub 的老荀,好久不见啊! 我在完成 HelloZooKeeper 系列之后,就很少"露面了".但是我对开源和 HelloGitHub 的热情并没有丝毫的减少.这不,逮着个机会就来输出一波,防止被大家遗忘. 这次带来的是我写的一款在终端浏览 HelloGitHub 的工具:hg-tui,让你双手不离开键盘就能畅游在 HG 的开源世界.功能如下: 色彩丰富.平铺展示 关键字搜索月刊往期的项目 类 Vim 的快捷键…
感谢英文原文作者:https://data-artisans.com/blog/a-practical-guide-to-broadcast-state-in-apache-flink 不过,原文最近好像不能访问了.应该是https://www.da-platform.com/网站移除了blog板块了. 从版本1.5.0开始,Apache FlinkⓇ具有一种新的状态,称为广播状态. 在这篇文章中,我们解释了广播状态是什么,并展示了如何将其应用于评估事件流上的动态模式的应用程序的示例.我们将引导…
一.设计思想及介绍 基本思想:“一切数据都是流,批是流的特例” 1.Micro Batching 模式 在Micro-Batching模式的架构实现上就有一个自然流数据流入系统进行攒批的过程,这在一定程度上就增加了延时.具体如下示意图: 2.Native Streaming 模式 Native Streaming 计算模式每条数据的到来都进行计算,这种计算模式显得更自然,并且延时性能达到更低.具体如下示意图: 很明显Native Streaming模式占据了流计算领域 "低延时" 的核…
转自:https://blog.minio.io/stream-processing-with-apache-flink-and-minio-10da85590787 Modern technology trends like Machine Learning, Deep Learning, Artificial intelligence, and IoT have pushed the need for a reliable, scaleable storage platform that i…
https://mp.weixin.qq.com/s/nQOxsZUZSiPi7Sx40mgwsA 20181104 3 differences between Savepoints and Checkpoints in Apache Flink data-artisans Flink 昨天 This episode of our Flink Friday Tip explains what Savepoints and Checkpoints are and examines the main…
前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topic 里面实时读取到监控数据,并将读取到的监控数据做一些 聚合/转换/计算 等操作,然后将计算后的结果与告警规则的阈值进行比较,然后做出相应的告警措施(钉钉群.邮件.短信.电话等).画了个简单的图如下: 目前告警这块的架构是这样的结构,刚进公司那会的时候,架构是所有的监控数据直接存在 ElasticS…