Flink中的算子操作

一、Connect

DataStream,DataStream -> ConnectedStream，连接两个保持他们类型的数据流，两个数据流被Connect之后，只是被放在了同一个流中，内部依然保持各自的数据和形式

不发生任何变化，两个流相互独立。

import org.apache.flink.streaming.api.scala._

object Connect {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    var stream01 = env.generateSequence(1,10)

    val stream = env.readTextFile("test001.txt")

    val stream02 = stream.flatMap(item => item.split(" ")).filter(item => item.equals("hadoop"))

    val streamConnect: ConnectedStreams[Long, String] = stream01.connect(stream02)

    //两个流各自处理各自的，互不干扰

    val stream03: DataStream[Any] = streamConnect.map(item => item * 2, item => (item,1L))

    stream03.print()

    env.execute("Connect")

  }

}

二、CoMap，CoFlatMap

ConnectedStreams -> DataStream：作用于ConnectedStream上，功能与map和flatMap一样，对ConnectedStram中的每一个Stream分别进行map和flatMap

三、Split

import org.apache.flink.streaming.api.scala._

object Split {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream: DataStream[String] = env.readTextFile("test001.txt").flatMap(item => item.split(" "))

    val streamSplit: SplitStream[String] = stream.split(

      word =>

        ("hadoop".equals(word) match {

          case true => List("hadoop") //值等于hadoop的流加入到一个List中

          case false => List("other")//值不等于hadoop的流加入到一个List中

        })

    )

    //取出属于各自部分的流

    val value01: DataStream[String] = streamSplit.select("hadoop")

    val value02: DataStream[String] = streamSplit.select("other")

    value01.print()

    value02.print()

    env.execute("Split Job")

  }

}

四、Union

DataStream -> DataStream：对两个或者两个以上的DataStream进行union操作，产生一个包含所有DataStream元素的新的DataStream。

注意：如果你将一个DataStream跟它自己做union操作，在新的DataStream中，你将看到每一个元素都出现两次。

五、KeyBy（比较重要）

DataStream -> KeyedStream：输入必须是Tuple类型，逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现的。

把所有相同key的数据聚合在一起

import org.apache.flink.api.java.tuple.Tuple

import org.apache.flink.streaming.api.scala._

object KeyBy {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream: DataStream[String] = env.readTextFile("test001.txt").flatMap(item => item.split(" "))

    //将相同key数据进行聚合

    //同一个key的数据都划分到同一个分区中

    val streamKeyBy: KeyedStream[(String, Int), Tuple] = stream.map(item => (item,1)).keyBy(0)

    streamKeyBy.print()

    env.execute("KeyBy Job")

  }

}

六、Reduce

KeyedStream -> DataStream，一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，

而不是只返回最后一次聚合的最终结果。

数据流如何在两个 transformation 组件中传输的？

一对一流（=spark窄依赖）：（比如source=>map过程）保持元素分区和排序

redistributing流（=spark宽依赖）：（map=>keyBy/window 之间，以及keyBy/window与sink之间）改变了流分区。

每一个算子任务根据所选的转换，向不同的目标子任务发送数据。

比如：keyBy，根据key的hash值重新分区、broadcast、rebalance（类似shuffle过程）。在一次 redistributing交换中，元素间排序，只针对发送方

的partition和接收partition方。最终到sink端的排序是不确定的。

Flink中的算子操作的更多相关文章

Flink学习（二）Flink中的时间
摘自Apache Flink官网最早的streaming 架构是storm的lambda架构分为三个layer batch layer serving layer speed layer 一.在s ...
Flink中案例学习--State与CheckPoint理解
1.State概念理解在Flink中,按照基本类型,对State做了以下两类的划分:Keyed State, Operator State. Keyed State:和Key有关的状态类型,它只能被 ...
Flink中API使用详细范例--window
Flink Window机制范例实录: 什么是Window?有哪些用途? 1.window又可以分为基于时间(Time-based)的window 2.基于数量(Count-based)的window ...
如何在 Apache Flink 中使用 Python API？
本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家孙金城分享.重点为大家介绍 Flink Python API 的现状及未来规划, ...
老板让阿粉学习 flink 中的 Watermark，现在他出教程了
1 前言在时间 Time 那一篇中,介绍了三种时间概念 Event.Ingestin 和 Process, 其中还简单介绍了乱序 Event Time 事件和它的解决方案 Watermark 水位线 ...
Flink中的window、watermark和ProcessFunction
一.Flink中的window 1,window简述 window 是一种切割无限数据为有限块进行处理的手段.Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有 ...
Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)
前言 Flink 是流式的.实时的计算引擎上面一句话就有两个概念,一个是流式,一个是实时. 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以 ...
理解Flink中的Task和SUBTASK
1.概念 Task(任务):Task是一个阶段多个功能相同的subTask 的集合,类似于Spark中的TaskSet. subTask(子任务):subTask是Flink中任务最小执行单元,是一个 ...
Flink的异步算子的原理及使用
1.简介 Flink的特点是高吞吐低延迟.但是Flink中的某环节的数据处理逻辑需要和外部系统交互,调用耗时不可控会显著降低集群性能.这时候就可能需要使用异步算子让耗时操作不需要等待结果返回就可以继续 ...

随机推荐

Java 并发之 Fork/Join 框架
什么是 Fork/Join 框架 Fork/Join 框架是一种在 JDk 7 引入的线程池,用于并行执行把一个大任务拆成多个小任务并行执行,最终汇总每个小任务结果得到大任务结果的特殊任务.通过其命名 ...
什么是BI工具,好用的BI工具软件排名
目录一.什么是BI工具? 二.BI工具有什么好处? 三.BI工具软件排名由于海量数据对各种规模的企业构成挑战,因此每年确保所有业务流程都在控制之下变得越来越困难.最终,组织和公司在做出可持续和有利 ...
spring web.xml 标签<param-name>contextConfigLocation</param-name>
<listener> <listener-class>org.springframework.web.context.ContextLoaderListener</lis ...
监控实战之Prometheus
author:JevonWei 版权声明:原创作品目录一背景二部署Prometheus Server Prometheus 主配置文件 targets 节点配置文件 rules 告警规则运 ...
记录21.07.26 —— Vue/cil
VUE搭载脚手架搭载环境下载node node.js下载地址控制台输入 npm install -g @vue/cil 查看版本创建vue项目创建完后会显示启动服务的指令这个指令可以在pa ...
看完就会的Spring Cloud Gateway
在前面几节,我给大家介绍了当一个系统拆分成微服务后,会产生的问题与解决方案:服务如何发现与管理(Nacos注册中心实战),服务与服务如何通信(Ribbon, Feign实战) 今天我们就来聊一聊另一个 ...
vue 传参动态
方法一: router/index.js { path: '/src/views/activitiesDetails', name: activitiesDetails, component: act ...
字符串连接 strcat
1 //字符串连接 strcat 2 //将一个字符串连接到另一个字符串的末尾,组合成一个新字符串 3 4 #include<stdio.h> 5 #include<stdlib.h ...
Kotlin强化实战！这份学习手册让你的面试稳如泰山
一.引言正如官网的slogan所描述:kotlin,是一门让程序员写代码时更有幸福的现代语言. 同时,也正如维基百科里介绍: JetBrains公司希望Kotlin能够推动IntelliJ IDEA ...
Windows安装Hyper-V并优化部署Linux虚拟机
安装Hyper-V 打开服务器管理器-->添加角色和功能-->下一步,选择Hyper-V,如图所示然后一直默认往下走,一直到安装完成,然后重新启动计算机,如图所示其中涉及的虚拟交换机. ...

Flink中的算子操作

Flink中的算子操作的更多相关文章

随机推荐

热门专题