Flink 学习（一）

摘自Flink官网https://flink.apache.org/

最近看到公司有Flink平台，正好做过storm和spark streaming上的业务，借着这个机会把flink也学了。正好比较下他们之间的优缺点。

一、流式处理平台

1.Storm

Topology为处理拓扑图

组成：

(1)Spout. 数据分发中心。

(2)Bolt. 数据处理中心

数据单元为Tuple。在Bolt处理完的数据可以发射给下一个Bolt。此时接收到的为Tuple。

缺点：

(1)消息传输保证为At least once. 但是可能出现重复发消息的情况。对每一条数据都做ack，所以容错的开销很大。

(2)延迟比flink大。

(3)吞吐量不如flink

(4)不支持批处理

2.Spark Streaming

(1)比较主流的实时计算引擎。但是是居于micro batch处理，并不是纯正的流式处理。

(2)支持处理时间，Structured streaming 支持处理时间和事件时间，同时支持 watermark 机制处理滞后数据。

(3)与Hadoop家族组件交互良好，例如Hbase等。

(4)容错机制，checkpoint。

(5)Spark Streaming 跟 kafka 结合是存在背压机制的，目标是根据当前 job 的处理情况来调节后续批次的获取 kafka 消息的条数.

(6)数据单元是RDD，新增了Dstream.直接度kafka获得。

(7)处理过程大致是transformation和action。

3.Flink

（1）数据形式DataStream（Streaming），DataSet（Batch）。

（2）处理过程是Source，Transformation 和 sink。

（3）时间。创建时间EventTime, 进入Flink DataFlow的时间。IngestionTime，对事件进行处理的本地系统时间Processing Time。

（4）窗口。按分割标准划分：timeWindow、countWindow。按窗口行为划分：Tumbling Window、Sliding Window、自定义窗口。

（5）轻量级容错机制。保证Execatly once执行。使用stream replay 和 checkpointing容错。

二、各个组件的介绍

1.JobManager用来分配任务,也就是常说的master

2.TaskManager用来分发task，缓存和交换数据流

3.Slot，把TaskManager根据task把内存抽象很多个slot，用来执行task。

三、Mac系统下安装Flink

Mac下很方便，mac装东西确实是方便。------brew install apache-flink

四、启动

1.启动本地集群环境，很快就能启动起来。在/usr/local/Cellar/apache-flink/1.7.0/libexec目录下。

./bin/start-cluster.sh

2.然后在 http://localhost:8081/#/overview 就可以看见Flink的监控平台。

可以看到Task Managers是1个。Slots也是一个。

下面还有好几个选项，可以看到你的集群配置环境。

五、Example

WordCount

（1）Code分析

 package flinkjob;

 import org.apache.flink.api.common.functions.FlatMapFunction;

 import org.apache.flink.api.common.functions.ReduceFunction;

 import org.apache.flink.api.java.utils.ParameterTool;

 import org.apache.flink.streaming.api.datastream.DataStream;

 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

 import org.apache.flink.streaming.api.windowing.time.Time;

 import org.apache.flink.util.Collector;

 /**

  * Created by adrian.wu on 2018/12/17.

  */

 public class SocketWindowWordCount {

     public static class WordWithCount {

         public String word;

         public long count;

         public WordWithCount() {}

         public WordWithCount(String word, long count) {

             this.word = word;

             this.count = count;

         }

         @Override

         public String toString() {

             return word + " : " + count;

         }

     }

     public static void main(String[] args) throws Exception{

         final int port;

         try {

             //得到提交时候的参数

             final ParameterTool params = ParameterTool.fromArgs(args);

             //得到端口号，因为这个例子是监听9000端口的例子

             port = params.getInt("port");

         } catch (Exception e) {

             System.err.println("No port specified. Please run 'SocketWindowWordCount --port <port>'");

             return;

         }

         final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

         //数据单元 DataStream

         DataStream<String> text = env.socketTextStream("localhost", port, "\n");

         DataStream<WordWithCount> windowCounts = text

                 .flatMap(new FlatMapFunction<String, WordWithCount>() {   //map

                     @Override

                     public void flatMap(String value, Collector<WordWithCount> out) {

                         for (String word : value.split("\\s")) {

                             out.collect(new WordWithCount(word, 1L));

                         }

                     }

                 })

                 .keyBy("word")

                 .timeWindow(Time.seconds(5), Time.seconds(1))  //Window function, 5秒一个window，间隔1

                 .reduce(new ReduceFunction<WordWithCount>() {

                     @Override

                     public WordWithCount reduce(WordWithCount a, WordWithCount b) {  //reduce

                         return new WordWithCount(a.word, a.count + b.count);

                     }

                 });

         windowCounts.print().setParallelism(1);

         env.execute("Socket Window WordCount");

     }

 }

（2）打包提交代码

 ./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000 #提交job

 nc -l 9000 #监听端口

tail -f log/flink-*-taskexecutor-*.out #查看log

（3）在监控平台可以看到你的job情况

Flink 学习（一）的更多相关文章

Apache Flink学习笔记
Apache Flink学习笔记简介大数据的计算引擎分为4代第一代:Hadoop承载的MapReduce.它将计算分为两个阶段,分别为Map和Reduce.对于上层应用来说,就要想办法去拆分算法 ...
准备数据集用于flink学习
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Flink学习笔记-新一代Flink计算引擎
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink学习笔记：Flink Runtime
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink学习笔记:Flink开发环境搭建
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink学习笔记：Flink API 通用基本概念
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
flink学习笔记：DataSream API
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink学习笔记:Operators串烧
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink学习笔记：Time的故事
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink学习笔记：Operators之CoGroup及Join操作
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

随机推荐

Windows下安装flask虚拟环境
前提已经安装好python2.x或者pyhton3.x的条件下,使用pip包管理工具 flask框架就不作介绍直接安装开始安装 1. 命令窗口下: 进入windows的命令窗口有三种方式: 第一种 ...
django引入模板时，部分css文件渲染不成功失灵引入不成功
今天碰到了一件怪事,下载好的模板,在webstorm中就好好地,但是一引入到pycharm的django项目中就各种失灵,位置错乱. 检查一番,发现该设置的都设置对了啊,而且js文件和css文件还有一 ...
使用WinForm Chart控件制作饼装，柱状，折线图
http://blog.csdn.net/dream2050csdn/article/details/53510340 chart控件的属性很多,主要用到Chart控件图表区域的属性有五个属性 1.A ...
POJ 1639 Picnic Planning 最小k度生成树
Picnic Planning Time Limit: 5000MS Memory Limit: 10000K Total Submissions:11615 Accepted: 4172 D ...
php5.4后htmlspecialchars输出为空的问题
从旧版升级到php5.4,恐怕最麻烦的就是htmlspecialchars这个问题了!当然,htmlentities也会受影响,不过,对于中文站来说一般用htmlspecialchars比较常见,ht ...
Luogu P2575 高手过招
题目链接 \(Click\) \(Here\) 关键在于转换成阶梯\(Nim\)的模型.最开始把题目看错了,理解正确后发现棋子可以向后跳不止一位,那么就比较简单了. 这里把空格看做阶梯,棋子看做硬币, ...
(贪心区间) 51nod1091 线段的重叠
X轴上有N条线段,每条线段包括1个起点和终点.线段的重叠是这样来算的,[10 20]和[12 25]的重叠部分为[12 20]. 给出N条线段的起点和终点,从中选出2条线段,这两条线段的重叠部分是最长 ...
（线性dp 最大连续和）POJ 2479 Maximum sum
Maximum sum Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 44459 Accepted: 13794 Des ...
String 类中的几个练习--获取指定字符串中，大写字母、小写字母、数字的个数||获取一个字符串中,另一个字符串出现的次数
package cn.homework.demo1; public class GetCount { /* * 获取一个字符串中,另一个字符串出现的次数 * 思想: * 1. indexOf到字符串中 ...
Java Web之表单重复提交问题
上篇文章讲了验证码的制作,提及到了一个问题,就是表单重复提交的问题,可能在上次那个验证码中感觉不是那么的重要现在我新写一个例子,转钱.通过这个例子你就知道表单重复提交有多恐怖了. 先来简单的介绍一下 ...