Flink组件及特性

liurio 2024-10-07 05:31:36 原文

　　Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已。Flink 会把所有任务当成流来处理，这也是其最大的特点。Flink 可以支持本地的快速迭代，以及一些环形的迭代任务。并且 Flink 可以定制化内存管理。就框架本身与应用场景来说，Flink 更相似与 Storm。

1、Flink组件栈

　　　　

部署模式

　　　　Flink能部署在云上或者局域网中，提供了所中部署方案(Local、Cluster、Cloud)，能在独立集群或者在被YARN或Mesos管理的集群上运行。

运行期

　　　　Flink的核心是分布式流式数据引擎，意味着数据以一次一个事件的形式被处理，这跟批次处理有很大不同。这个保证了上面说的那些Flink弹性和高性能的特性。

API

　　　　DataStream API和DataSet API都会使用单独编译的处理方式（Separate compilation process）生成JobGraph。DataSet API使用Optimizer来决定针对程序的优化方法，而DataStream API则使用stream builder来完成该任务。

代码库

　　　　Flink附随了一些产生DataSet或DataStream API程序的的类库和API：处理逻辑表查询的Table，机器学习的FlinkML，图像处理的Gelly，事件处理的CEP

2、Flink特性

流处理特性

　　　　ü 支持高吞吐、低延迟、高性能的流处理

　　　　ü 支持带有事件时间的窗口（Window）操作

　　　　ü 支持有状态计算的Exactly-once语义

　　　　ü 支持高度灵活的窗口（Window）操作，支持基于time、count、session，以及data-driven的窗口操作

　　　　ü 支持具有Backpressure功能的持续流模型

　　　　ü 支持基于轻量级分布式快照（Snapshot）实现的容错

　　　　ü 一个运行时同时支持Batch on Streaming处理和Streaming处理

　　　　ü Flink在JVM内部实现了自己的内存管理

　　　　ü 支持迭代计算

　　　　ü 支持程序自动优化：避免特定情况下Shuffle、排序等昂贵操作，中间结果有必要进行缓存

API支持

　　　　ü 对Streaming数据类应用，提供DataStream API

　　　　ü 对批处理类应用，提供DataSet API（支持Java/Scala）

Libraries支持

　　　　ü 支持机器学习（FlinkML）

　　　　ü 支持图分析（Gelly）

　　　　ü 支持关系数据处理（Table）

　　　　ü 支持复杂事件处理（CEP）

整合支持

　　　　ü 支持Flink on YARN

　　　　ü 支持HDFS

　　　　ü 支持来自Kafka的输入数据

　　　　ü 支持Apache HBase

　　　　ü 支持Hadoop程序

　　　　ü 支持Tachyon

　　　　ü 支持ElasticSearch

　　　　ü 支持RabbitMQ

　　　　ü 支持Apache Storm

　　　　ü 支持S3

　　　　ü 支持XtreemFS

Flink组件及特性的更多相关文章

从flink-example分析flink组件(3)WordCount 流式实战及源码分析
前面介绍了批量处理的WorkCount是如何执行的 <从flink-example分析flink组件(1)WordCount batch实战及源码分析> <从flink-exampl ...
从flink-example分析flink组件(1)WordCount batch实战及源码分析
上一章<windows下flink示例程序的执行> 简单介绍了一下flink在windows下如何通过flink-webui运行已经打包完成的示例程序(jar),那么我们为什么要使用fli ...
【分布式架构】--- 基于Redis组件的特性，实现一个分布式限流
分布式---基于Redis进行接口IP限流场景为了防止我们的接口被人恶意访问,比如有人通过JMeter工具频繁访问我们的接口,导致接口响应变慢甚至崩溃,所以我们需要对一些特定的接口进行IP限流,即 ...
Flink 剖析
1.概述在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷.今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一.那么,接下来,笔者为大家介绍Fl ...
Apache Flink
Flink 剖析 1.概述在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷.今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一.那么,接下来, ...
Flink架构、原理与部署测试
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案,会把流处理和批处理作为 ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
本文由网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
Flink知识点
1. Flink.Storm.Sparkstreaming对比 Storm只支持流处理任务,数据是一条一条的源源不断地处理,而MapReduce.spark只支持批处理任务,spark-streami ...
Flink架构、原理与部署测试(转)
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案,会把流处理和批处理作为 ...

随机推荐

ARM伪指令和协处理器访问指令
伪指令本身没有对应的机器码 .global声明全局符号,点事GUN汇编的特点 .data定义数据段 .equ DA #0x89 定义宏 .align 4 4字节对齐 mov 指令里的立即数只能是8位的 ...
horizon服务
一.horizon 介绍: 理解 horizon Horizon 为 Openstack 提供一个 WEB 前端的管理界面 (UI 服务 )通过 Horizone 所提供的 DashBoard 服务 ...
KVM虚拟化网卡管理
brctl常用命令查看当前虚拟网桥状态 brctl show 添加一个网桥 addbr 删除一个网桥 delbr 添加网口 addif 删除网口 delif VALN LAN 表示 Local Ar ...
keepalived启动后报错：(VI_1): received an invalid passwd!的解决办法
一.配置好keepalived.conf文件后,启动keepalived,查看/var/log/message日志报错: [root@push-- sbin]# tail -f /var/log/me ...
svn 介绍及linux下常用操作命令
1.概念 truck(主干|主线|主分支):是用来做主方向开发的,新功能的开发应放在主线中,当模块开发完成后,需要修改,就用branch. branch(分支):分支开发和主线开发是可以同时进行的,也 ...
批量修改zencart产品价格、原价、特价、产品属性价格
批量修改zencart商品价格无非只有下面几种情况: 一在原来基础上批量调高一定比例二将原来的价格批量换成一个新的价格针对第一种情况的话,网上很多人已经给出了解决办法: 利用SQL语句批量修改 ...
kettle批量导入json数据
kettle新手上路,烦死了,工具好用,批量导入数据也快,就是有很多小细节需要注意. 使用kettle进行数据导入时,因为最近在做json数据的入库,以JSON Input为例进行说明: 首先是大概流 ...
新建ext4分区及开机挂载
1.查看新的20G硬盘是否已经挂在完毕. 2.使用fdisk命令创建主分区 3.再将分区设置完毕之后,查看磁盘分区是否创建完成. 2.使用mkfs.ext4命令将新创建的分区进行格式化为: 1)blo ...
SetConsoleTextAttribute和SetConsoleScreenBufferInfoEx的使用
主要是作用于控制台文本下划线和改变文本颜色 #include "pch.h" #include <iostream> #include <Windows.h> ...
【java】并发执行ExecutorService的sumbit返回值的顺序问题
ArrayList<Future> fl = new ArrayList<Future>(); for (int i = 0; i < 10; i++) { Future ...