Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Apache Flink是一个分布式.有状态的流计算引擎. 下面将正式开启Flink系列的学习笔记与总结.(https://flink.apache.org/).此篇是准备篇,主要介绍流处理相关的基础概念.别小看这些理论,对后续的学习与理解很…
前面介绍了批量处理的WorkCount是如何执行的 <从flink-example分析flink组件(1)WordCount batch实战及源码分析> <从flink-example分析flink组件(2)WordCount batch实战及源码分析----flink如何在本地执行的?> 这篇从WordCount的流式处理开始 /** * Implements the "WordCount" program that computes a simple wor…
转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data 提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈.从它的视角来看,目前的大数据处理可以分为如以下三个类型. 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间. 基于历史数据的交互式…