【翻译】了解Flink-对DataStream API的介绍 -- Learn Flink-Intro to the DataStream API
翻译来源 Learn Flink:Intro to the DataStream API
本手册的重点是充分地全面介绍DataStream API,使您能够开始编写流应用程序。
流式可以传输什么?
Flink的Java和Scala的DataStream API将让您用流传输可以序列化的任何内容。Flink自己的序列化器用于:
- 基本类型,String, Long, Integer, Boolean, Array
- 复合类型:Tuples, POJOs, and Scala case classes
并且Flink回退到Kryo进行其他类型的序列化。也可以将其他序列化器与Flink一起使用。特别是Avro得到了很好的支持。
Java元组和POJO
元组原文tuples。
Flink的本机序列化程序可以在元组和POJO上高效运行。
元组
对于Java,Flink定义了自己的Tuple0到Tuple25类型。
Tuple2<String, Integer> person = Tuple2.of("Fred", 35);
// zero based index!
String name = person.f0;
Integer age = person.f1;
POJO
如果满足以下条件,则Flink将数据类型识别为POJO类型(并允许“按名称”字段引用):
- 该类是公共的和单独的(没有非静态内部类)
- 该类具有公共的无参数构造函数
- 类(包括所有超类)中的所有非静态,非瞬态字段都是公共的(并且是non-final),或者具有公共的getter和setter方法,这些方法遵循针对getter和setter的Java bean命名约定。
例子:
public class Person {
public String name;
public Integer age;
public Person() {};
public Person(String name, Integer age) {
. . .
};
}
Person person = new Person("Fred Flintstone", 35);
Flink的序列化器支持POJO类型的模式演变。
Scala元组和case classes
这块不做介绍
一个完整的例子
本示例将有关人的记录流作为输入,并对其进行过滤以仅包括成年人。
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.api.common.functions.FilterFunction;
public class Example {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env =
StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Person> flintstones = env.fromElements(
new Person("Fred", 35),
new Person("Wilma", 35),
new Person("Pebbles", 2));
DataStream<Person> adults = flintstones.filter(new FilterFunction<Person>() {
@Override
public boolean filter(Person person) throws Exception {
return person.age >= 18;
}
});
adults.print();
env.execute();
}
public static class Person {
public String name;
public Integer age;
public Person() {};
public Person(String name, Integer age) {
this.name = name;
this.age = age;
};
public String toString() {
return this.name.toString() + ": age " + this.age.toString();
};
}
}
流执行环境
每个Flink应用程序都需要一个执行环境,示例中的env。流应用程序需要使用StreamExecutionEnvironment。
应用程序中进行的DataStream API调用会组成构建一个作业图,该作业图已附加到 StreamExecutionEnvironment。调用env.execute(),作业图被打包,然后发送到JobManager,JobManager并行作业并且分配图片段给Task Managers执行。作业的每个并行切片都会在一个task slot中执行。
请注意,如果您不调用execute(),则您的应用程序将不会运行。

此分布式运行时要求应用程序可以被序列化。它还要求对于群集中的每个节点所有依赖的东西均可用。
基本的stream sources
上面的示例用 env.fromElements(...)构造了一个DataStream。这是一种将简单的流放在一起以用于样例或测试的便捷方法。StreamExecutionEnvironment还有一种 fromCollection(Collection)方法。因此,您可以这样做:
List<Person> people = new ArrayList<Person>();
people.add(new Person("Fred", 35));
people.add(new Person("Wilma", 35));
people.add(new Person("Pebbles", 2));
DataStream<Person> flintstones = env.fromCollection(people);
在使用样例时,另一种便捷方法是从套接字将一些数据放入流中。
DataStream<String> lines = env.socketTextStream("localhost", 9999)
或一个文件
DataStream<String> lines = env.readTextFile("file:///path");
在实际应用程序中,最常用的数据源是那些支持低延迟、高吞吐量、并行读取以及回退和重放(高性能和容错能力的先决条件)的数据源,例如Apache Kafka,Kinesis和各种文件系统。REST API和数据库也经常用于流。
基本的stream sinks
上面的示例用adults.print()将其结果打印到任务管理器日志中(当在IDE中运行时,它将显示在IDE的控制台中)。这将对流的每个元素调用toString()。
输出看起来像这样
1> Fred: age 35
2> Wilma: age 35
其中1>和2>指示哪个子任务(即线程)产生了输出。
在生产中,常用的接收器包括StreamingFileSink,各种数据库和几个发布-订阅系统。
调试
在生产中,您的应用程序将在远程集群或一组容器中运行。程序失败也是远程失败。JobManager和TaskManager日志对于调试此类故障非常有用,但是Flink支持的IDE内进行本地调试要容易得多。您可以设置断点,检查局部变量,并逐步执行代码。您也可以进入Flink的代码,如果您想了解Flink的工作原理,这可能是了解其内部的一种好方法。
上手
至此,您已经足够了解如何开始编码和运行一个简单的DataStream应用程序了。克隆flink-training仓库,然后按照README中的说明进行第一个练习: 过滤一个流(Ride Cleansing)。
进一步阅读
- Flink序列化调整卷 1:选择序列化器-如果可以的话
- Flink程序剖析
- 数据源
- 数据接收器](https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/datastream_api.html#data-sinks)
- DataStream连接器
【翻译】了解Flink-对DataStream API的介绍 -- Learn Flink-Intro to the DataStream API的更多相关文章
- Flink应用程序结构开发介绍
Flink程序遵循一定的编程模式.DataStream API 和 DataSet API 基本具有相同的程序结构.以下为一个流式程序的示例代码来对文本文件进行词频统计. package com.re ...
- 【大数据面试】Flink 04:状态编程与容错机制、Table API、SQL、Flink CEP
六.状态编程与容错机制 1.状态介绍 (1)分类 流式计算分为无状态和有状态 无状态流针对每个独立事件输出结果,有状态流需要维护一个状态,并基于多个事件输出结果(当前事件+当前状态值) (2)有状态计 ...
- Odoo 二次开发教程(五)-新API的介绍与应用
[关于odoo新API的介绍,Internet上资料很少,或者不够完整详实,这会对初学者造成很大的困惑,本篇的目的就是希望能帮助新手了解新API的大概] odoo 新api的实现是借助于python装 ...
- Tyk API网关介绍及安装说明
Tyk API网关介绍及安装说明 Tyk是一个开源的轻量级API网关程序. 什么是API网关 API网关是一个各类不同API的前置服务器.API网关封装了系统内部架构,对外提供统一服务.此外还可以实现 ...
- spring3 的restful API RequestMapping介绍
原文链接:http://www.javaarch.net/jiagoushi/694.htm spring3 的restful API RequestMapping介绍 在spring mvc中 @R ...
- Android基础知识之API等级介绍
原文:http://android.eoe.cn/topic/android_sdk :可以让开发者通过一个表示API级别的整数来描述程序在android平台上的兼容性,系统会将与系统本身提供的API ...
- FileNet P8 工作流生命周期管理和 Process Engine API 应用介绍
摘录:https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0902wangzheng/ FileNet P8 工作流生 ...
- Tesseract-OCR-05-主要API功能介绍
Tesseract-05-主要API功能介绍 tesseract本身代码是由c/c++混编而成的,其中有用的简单的接口函数几乎都是在baseapi.h中 从其处理过程中,不难得出: 它还需要有一个im ...
- API HOOK介绍 【转】
什么是“跨进程 API Hook”? 众所周知Windows应用程序的各种系统功能是通过调用API函数来实现.API Hook就是给系统的API附加上一段小程序,它能监视甚至控制应用程序对API函数的 ...
- OpenStack Restful API框架介绍
1 pecan框架介绍 1.1 什么是pecan pecan是一个轻量级的python web框架,最主要的特点是提供了简单的配置即可创建一个wsgi对象并提供了基于对象的路由方式. 主要提供的功 ...
随机推荐
- 464. 我能赢吗 (Medium)
问题描述 464. 我能赢吗 (Medium) 在 "100 game" 这个游戏中,两名玩家轮流选择从 1 到 10 的任意整数,累计整数和,先使得累计整数和 达到或超过 100 ...
- 解决scroll中addEventListener不生效的问题
这样写会出现一个情况,滚动的时候不打印任何值,并没有进入具体方法 但是下面这种方法 加一个true就会打印出相应的值
- git账号密码修改
1.window10下的账号密码,打开控制台->账号管理->凭据管理器
- windows下解决getAddressInfo Failed的一种办法
从九点到现在,解决完这个问题就四点了,其实不难,只是第一次遇到和我太菜. 就是管理员身份打开命令行然后输入ipconfig /flushdns,作用是刷新dns解析缓存,这还不够,如果只做这一步,重启 ...
- DataWork之 MaxComputer的使用
注意: 由于MaxComputer里面没有主键 默认主键为 保单号+8位险种代码+责任起期 若无主键限制,就对所有的字段进行分组 所以每次join的时候,where条件需要加上 a.主键 =b.主键 ...
- 02. C语言基础知识
一.注释 注释 就是对代码进行解释说明的文字,注释的内容不会参与编译和运行,仅仅是对代码的解释说明.在 C语言 中注释主要分为以下两类: 单行注释://,注释内容从 // 始到本行和结尾 多行注释 ...
- airtest IDE初级教程
一.简介 AirtestIDE 是一款跨平台的 UI自动化测试编辑器 ,内置了Airtest和Poco的相关插件功能,能够使用它快速简单地编写 Airtest 和 Poco 代码. 1. Airtes ...
- ESLint未定义报错
vue框架, --- .eslintrc.js : module.exports = { root: true, env: { node: true }, 'extends': [ 'plugin ...
- jekins+gitlab
1.jekins安装可以看jekins+shell随笔. 2.安装gitlab rpm -ivh gitlab-ce-11.2.0-ce.0.el7.x86_64.rpm 3.修改配置 vi ...
- Git Commit Rule
## git commit tagfeat: 新功能fix: 修复问题docs: 修改文档style: 修改代码格式,不影响代码逻辑refactor: 重构代码,理论上不影响现有功能perf: 提升性 ...