Flink入门（四）—

flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink的编程模型。

数据集类型：

无穷数据集：无穷的持续集成的数据集合
有界数据集：有限不会改变的数据集合

常见的无穷数据集有：

用户与客户端的实时交互数据
应用实时产生的日志
金融市场的实时交易记录
…

数据运算模型有哪些呢？

流式：只要数据一直在生产，计算就持续地运行
批处理：在预先定义的时间内运行计算，当完成时候释放计算机资源

Flink它可以处理有界的数据集，也可以处理无界的数据集，它可以流式的处理数据，也可以批量的处理数据。

Flink是什么？

从下至上：

1、部署：Flink 支持本地运行、能在独立集群或者在被 YARN 或 Mesos 管理的集群上运行，也能部署在云上。
2、运行：Flink 的核心是分布式流式数据引擎，意味着数据以一次一个事件的形式被处理。
3、API：DataStream、DataSet、Table、SQL API。
4、扩展库：Flink 还包括用于复杂事件处理，机器学习，图形处理和 Apache Storm 兼容性的专用代码库。

Flink 数据流编程模型

抽象级别
Flink提供了不同的抽象级别以开发流式或者批处理应用

最底层提供了有状态流，它将通过过程函数嵌入到DataStream API中，它允许用户可以自由地处理来自一个或者多个流数据的事件，并使用一致、容错的状态。除此之外，用户可以注册事件时间和处理事件回调，从而使程序可以实现复杂的计算。

DataStream / DataSet API 是 Flink 提供的核心 API ，DataSet 处理有界的数据集，DataStream 处理有界或者无界的数据流。用户可以通过各种方法（map / flatmap / window / keyby / sum / max / min / avg / join 等）将数据进行转换 / 计算。

Table API 是以表为中心的声明式 DSL，其中表可能会动态变化（在表达流数据时）。Table API 提供了例如 select、project、join、group-by、aggregate 等操作，使用起来却更加简洁（代码量更少）。

你可以在表与 DataStream/DataSet 之间无缝切换，也允许程序将 Table API 与 DataStream 以及 DataSet 混合使用。

Flink 提供的最高层级的抽象是 SQL 。这一层抽象在语法与表达能力上与 Table API 类似，但是是以 SQL查询表达式的形式表现程序。SQL 抽象与 Table API 交互密切，同时 SQL 查询可以直接在 Table API 定义的表上执行。

Flink 程序与数据流结构

Flink 应用程序结构就是如上图所示：

Source: 数据源，Flink 在流处理和批处理上的 source 大概有 4 类：基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。自定义的 source 常见的有 Apache kafka、Amazon Kinesis Streams、RabbitMQ、Twitter Streaming API、Apache NiFi 等，当然你也可以定义自己的 source。
Transformation：数据转换的各种操作，有 Map / FlatMap / Filter / KeyBy / Reduce / Fold / Aggregations / Window / WindowAll / Union / Window join / Split / Select / Project 等，操作很多，可以将数据转换计算成你想要的数据。
Sink：接收器，Flink 将转换计算后的数据发送的地点，你可能需要存储下来，Flink 常见的 Sink 大概有如下几类：写入文件、打印出来、写入 socket 、自定义的 sink 。自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem 等，同理你也可以定义自己的 sink。

Flink系列文章：

Flink入门（一）——Apache Flink介绍

Flink入门（二）——Flink架构介绍

Flink入门（三）——环境与部署

更多实时计算,Flink,Kafka等相关技术博文，欢迎关注实时流式计算

Flink入门（四）——编程模型的更多相关文章

[Note] Apache Flink 的数据流编程模型
Apache Flink 的数据流编程模型抽象层次 Flink 为开发流式应用和批式应用设计了不同的抽象层次状态化的流抽象层次的最底层是状态化的流,它通过 ProcessFunction 嵌入到 ...
第03讲：Flink 的编程模型与其他框架比较
Flink系列文章第01讲:Flink 的应用场景和架构模型第02讲:Flink 入门程序 WordCount 和 SQL 实现第03讲:Flink 的编程模型与其他框架比较本课时我们主要介绍 ...
Flink入门（五）——DataSet Api编程指南
Apache Flink Apache Flink 是一个兼顾高吞吐.低延迟.高性能的分布式处理框架.在实时计算崛起的今天,Flink正在飞速发展.由于性能的优势和兼顾批处理,流处理的特性,Flink ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 . 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语 ...
Spark中文指南(入门篇)-Spark编程模型(一)
前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark ...
Scala进阶之路-并发编程模型Akka入门篇
Scala进阶之路-并发编程模型Akka入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Akka Actor介绍 1>.Akka介绍写并发程序很难.程序员不得不处 ...
转载：Spark中文指南(入门篇)-Spark编程模型(一)
原文:https://www.cnblogs.com/miqi1992/p/5621268.html 前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apac ...
Spark：Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356 Spark编程模型 SparkContext类和SparkConf类代码中初始化我们 ...

随机推荐

前端小白在asp.net core mvc中使用ECharts
对于在浏览器中绘制图形图表,目前有较多的js类库可以使用,如:ChartJS,Flot,canvasjs等,但是今天介绍的主角为国产图表库,并在apache孵化,就是大名鼎鼎的echarts. 前方高 ...
从壹开始 [ Design Pattern ] 之一 ║ 设计模式开篇讲
缘起不说其他的没用的开场白了,直接给大家分享三个小故事,都来自于我的读者粉丝(我厚着脸皮称为粉丝吧
ArcGIS API For Javascript ：如何动态生成 token 加载权限分配的地图服务？
一.需求项目中我们通常会遇到为外协团队.合作友商提供地图服务的需求,因此对地图服务的权限需要做出分配. 二.现状主流的办法是用用户和角色来控制,通常使用代理方式和用户名密码的方式来实现. 三.思路 ...
python：Asyncio模块处理“事件循环”中的异步进程和并发执行任务
python模块Asynico提供了管理事件.携程.任务和线程的功能已经编写并发代码的同步原语. 组成模块: 事件循,Asyncio 每个进程都有一个事件循环. 协程,子例程概念的泛化,可以暂停任务, ...
Redis是什么？看这一篇就够了
本文由葡萄城技术团队编撰并首发转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 引言在Web应用发展的初期,那时关系型数据库受到了较为广泛的关注和应用,原 ...
setBounds方法，与setLayout(null)
首先把相关容器的布局方式设为 setLayout(null); 然后调用组件的 setBounds() 方法设置button的位置为(100,100) 长宽分别为 60,25 jButton.se ...
linuxLVM
一.概念性的东西 LVM2:Logical Volume Manager ,Cersion 2 LVM,依赖于内核的dm模块(将一个或多个底层的设备组织成一个逻辑设备的模块).可以将多个物理分区通过软 ...
利用scrapy爬取腾讯的招聘信息
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 ...
国内开源C# WPF控件库Panuon.UI.Silver强力推荐
国内优秀的WPF开源控件库,Panuon.UI的优化版本.一个漂亮的.使用样式与附加属性的WPF UI控件库,值得向大家推荐使用与学习. 今天站长(Dotnet9,站长网址:https://dotne ...
U盘安装centos 7 提示 “Warning: /dev/root does not exist
背景介绍:公司需要使用台式机安装Centos 7.5 系统,来部署一个测试的数据库,在安装Centos 7.5 系统的时候,使用U启安装,但有问题. 提示信息如下如图:安装centos 7时提示 & ...

Flink入门（四）——编程模型