翻译来源 Learn Flink：Intro to the DataStream API

本手册的重点是充分地全面介绍DataStream API，使您能够开始编写流应用程序。

流式可以传输什么？

Flink的Java和Scala的DataStream API将让您用流传输可以序列化的任何内容。Flink自己的序列化器用于：

基本类型，String, Long, Integer, Boolean, Array
复合类型：Tuples, POJOs, and Scala case classes

并且Flink回退到Kryo进行其他类型的序列化。也可以将其他序列化器与Flink一起使用。特别是Avro得到了很好的支持。

Java元组和POJO

元组原文tuples。

Flink的本机序列化程序可以在元组和POJO上高效运行。

元组

对于Java，Flink定义了自己的Tuple0到Tuple25类型。

Tuple2<String, Integer> person = Tuple2.of("Fred", 35);

// zero based index!

String name = person.f0;

Integer age = person.f1;

POJO

如果满足以下条件，则Flink将数据类型识别为POJO类型（并允许“按名称”字段引用）：

该类是公共的和单独的（没有非静态内部类）
该类具有公共的无参数构造函数
类（包括所有超类）中的所有非静态，非瞬态字段都是公共的（并且是non-final），或者具有公共的getter和setter方法，这些方法遵循针对getter和setter的Java bean命名约定。

例子：

public class Person {

    public String name;

    public Integer age;

    public Person() {};

    public Person(String name, Integer age) {

        . . .

    };

}  

Person person = new Person("Fred Flintstone", 35);

Flink的序列化器支持POJO类型的模式演变。

Scala元组和case classes

这块不做介绍

一个完整的例子

本示例将有关人的记录流作为输入，并对其进行过滤以仅包括成年人。

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.api.common.functions.FilterFunction;

public class Example {

    public static void main(String[] args) throws Exception {

        final StreamExecutionEnvironment env =

                StreamExecutionEnvironment.getExecutionEnvironment();

        DataStream<Person> flintstones = env.fromElements(

                new Person("Fred", 35),

                new Person("Wilma", 35),

                new Person("Pebbles", 2));

        DataStream<Person> adults = flintstones.filter(new FilterFunction<Person>() {

            @Override

            public boolean filter(Person person) throws Exception {

                return person.age >= 18;

            }

        });

        adults.print();

        env.execute();

    }

    public static class Person {

        public String name;

        public Integer age;

        public Person() {};

        public Person(String name, Integer age) {

            this.name = name;

            this.age = age;

        };

        public String toString() {

            return this.name.toString() + ": age " + this.age.toString();

        };

    }

}

流执行环境

每个Flink应用程序都需要一个执行环境，示例中的env。流应用程序需要使用StreamExecutionEnvironment。

应用程序中进行的DataStream API调用会组成构建一个作业图，该作业图已附加到 StreamExecutionEnvironment。调用env.execute()，作业图被打包，然后发送到JobManager，JobManager并行作业并且分配图片段给Task Managers执行。作业的每个并行切片都会在一个task slot中执行。

请注意，如果您不调用execute（），则您的应用程序将不会运行。

此分布式运行时要求应用程序可以被序列化。它还要求对于群集中的每个节点所有依赖的东西均可用。

基本的stream sources

上面的示例用 env.fromElements(...)构造了一个DataStream。这是一种将简单的流放在一起以用于样例或测试的便捷方法。StreamExecutionEnvironment还有一种 fromCollection(Collection)方法。因此，您可以这样做：

List<Person> people = new ArrayList<Person>();

people.add(new Person("Fred", 35));

people.add(new Person("Wilma", 35));

people.add(new Person("Pebbles", 2));

DataStream<Person> flintstones = env.fromCollection(people);

在使用样例时，另一种便捷方法是从套接字将一些数据放入流中。

DataStream<String> lines = env.socketTextStream("localhost", 9999)

或一个文件

DataStream<String> lines = env.readTextFile("file:///path");

在实际应用程序中，最常用的数据源是那些支持低延迟、高吞吐量、并行读取以及回退和重放（高性能和容错能力的先决条件）的数据源，例如Apache Kafka，Kinesis和各种文件系统。REST API和数据库也经常用于流。

基本的stream sinks

上面的示例用adults.print()将其结果打印到任务管理器日志中（当在IDE中运行时，它将显示在IDE的控制台中）。这将对流的每个元素调用toString()。

输出看起来像这样

1> Fred: age 35

2> Wilma: age 35

其中1>和2>指示哪个子任务（即线程）产生了输出。

在生产中，常用的接收器包括StreamingFileSink，各种数据库和几个发布-订阅系统。

调试

在生产中，您的应用程序将在远程集群或一组容器中运行。程序失败也是远程失败。JobManager和TaskManager日志对于调试此类故障非常有用，但是Flink支持的IDE内进行本地调试要容易得多。您可以设置断点，检查局部变量，并逐步执行代码。您也可以进入Flink的代码，如果您想了解Flink的工作原理，这可能是了解其内部的一种好方法。

上手

至此，您已经足够了解如何开始编码和运行一个简单的DataStream应用程序了。克隆flink-training仓库，然后按照README中的说明进行第一个练习：过滤一个流（Ride Cleansing）。

进一步阅读

【翻译】了解Flink-对DataStream API的介绍 -- Learn Flink-Intro to the DataStream API的更多相关文章

Flink应用程序结构开发介绍
Flink程序遵循一定的编程模式.DataStream API 和 DataSet API 基本具有相同的程序结构.以下为一个流式程序的示例代码来对文本文件进行词频统计. package com.re ...
【大数据面试】Flink 04：状态编程与容错机制、Table API、SQL、Flink CEP
六.状态编程与容错机制 1.状态介绍 (1)分类流式计算分为无状态和有状态无状态流针对每个独立事件输出结果,有状态流需要维护一个状态,并基于多个事件输出结果(当前事件+当前状态值) (2)有状态计 ...
Odoo 二次开发教程(五)-新API的介绍与应用
[关于odoo新API的介绍,Internet上资料很少,或者不够完整详实,这会对初学者造成很大的困惑,本篇的目的就是希望能帮助新手了解新API的大概] odoo 新api的实现是借助于python装 ...
Tyk API网关介绍及安装说明
Tyk API网关介绍及安装说明 Tyk是一个开源的轻量级API网关程序. 什么是API网关 API网关是一个各类不同API的前置服务器.API网关封装了系统内部架构,对外提供统一服务.此外还可以实现 ...
spring3 的restful API RequestMapping介绍
原文链接:http://www.javaarch.net/jiagoushi/694.htm spring3 的restful API RequestMapping介绍在spring mvc中 @R ...
Android基础知识之API等级介绍
原文:http://android.eoe.cn/topic/android_sdk :可以让开发者通过一个表示API级别的整数来描述程序在android平台上的兼容性,系统会将与系统本身提供的API ...
FileNet P8 工作流生命周期管理和 Process Engine API 应用介绍
摘录:https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0902wangzheng/ FileNet P8 工作流生 ...
Tesseract-OCR-05-主要API功能介绍
Tesseract-05-主要API功能介绍 tesseract本身代码是由c/c++混编而成的,其中有用的简单的接口函数几乎都是在baseapi.h中从其处理过程中,不难得出: 它还需要有一个im ...
API HOOK介绍【转】
什么是“跨进程 API Hook”? 众所周知Windows应用程序的各种系统功能是通过调用API函数来实现.API Hook就是给系统的API附加上一段小程序,它能监视甚至控制应用程序对API函数的 ...
OpenStack Restful API框架介绍
1 pecan框架介绍 1.1 什么是pecan pecan是一个轻量级的python web框架,最主要的特点是提供了简单的配置即可创建一个wsgi对象并提供了基于对象的路由方式. 主要提供的功 ...

随机推荐

洛谷P3933 Chtholly Nota Seniorious
题目 https://www.luogu.com.cn/problem/P3933 顺便:中国珂学院思路看到此题先大喊一声"我永远喜欢珂朵莉!" 好了然后我们思考一下如何做此题 ...
Linux 磁盘扩容
原文链接:https://blog.csdn.net/zzq100zzq/article/details/125178843 一.查看系统磁盘1.使用df -hl ,查看系统的磁盘使用情况二.linu ...
LeetCode(Java版)
两数之和题目描述给定一个整数数组和一个目标值,找出数组中和为目标值的两个数. 你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用. 示例: 给定 nums = [2, 7, 11, 15 ...
【Frida】打印方法的调用堆栈
function printstack() { console.log(Java.use("android.util.Log").getStackTraceString(Java. ...
Visualization: Pie Chart(可视化：饼图)
1 <html> 2 <head> 3 <script type="text/javascript" src="https://www.gs ...
flask-基础篇03 请求钩子与上下文
一.异常处理 1.HTTP 异常主动抛出 ①abort 方法: 抛出一个给定状态代码的 HTTPException 或者指定响应,例如想要用一个页面未找到页面未找到异常来终止请求,你可以调用 abo ...
jmeter组件
1.进程:一个正在执行的程序就对应一个进程线程:进程中的执行线索(一个进程有多个执行线索) 线程组:按照线程性质对线程进行分组 2.并发执行:多个线程同时执行特点:执行结束的顺序和线程的启动顺序不 ...
js导出数据为excel表
1.接口数据后端写, 2.代码如下: var params={ "filters":[ {"propertyCode":"sequenceNo&quo ...
用windows 定时任务执行kettle的ktr文件，以及问题处理
新建.bat文件,输入下面的批处理语句 d: cd D:\kettle\data-integration\ pan /file D:\etltest\EtltestTrans.ktr 第一行:进入你的 ...
oracle导出csv文件后导入mysql
场景: oracle数据库中有与mysql同名表,需要将oracle表数据导入mysql,需要手工操作工具: navicat premium 解决方案: 1.使用plsql工具从oracle导出cs ...

【翻译】了解Flink-对DataStream API的介绍 -- Learn Flink-Intro to the DataStream API