1、StreamGraph本质

本质就是按照用程序代码的执行顺序构建出来的用于向执行环境传输的流式图,并且可以支持可视化展示给用户的一种数据结构。

2、StreamGraph、StreamNode和StreamEdge的数据结构

StreamGraph构建DAG流图时,其核心是要维护好节点及节点之间的关系即可,关于这块主要是以下关键属性:



而节点之间的关系是由节点自身数据结构来维护的,在StreamNode包含着节点和上下游节点间的关系:



节点关系的具体表征就是StreamEdge了:



以上三个类除了维护构建DAG流图相关属性外,还包含了其他与流程序执行相关的属性以及一些其他参数,如输入输出序列化、格式化等等。

3、构建入口



从StreamExecutionEnvironment环境中构建StreamGraph时分成两个部分:

首先从全局执行环境参数中构建出一个StreamGraphGenerator对象,并将部分全局参数设置进去;

然后再由这个StreamGraphGenerator对象去generat出StreamGraph

3、构建过程



构建过程又可以分为两个步骤:

首先new一个StreamGraph对象,并且设置其全局的一些config参数:

然后对其中的每一个transform算子进行循环递归处理,组织其内部的Node与Edge关系,形成最终结果:

单个算子的处理时,根据每个算子的类型有其单独的算法



4、Transformation抽象类的体系结构

这里没有定义为接口而是一个抽象类,猜测设计这个类的初衷是提取公共属性而非提取transform的模板方法了,否则也不会有上面那一大坨分类处理的ifelse



5、transform算子具体逻辑

transform算子的套路额基本相差不大,都是由transformXXX方法完成,大概都包含以下步骤:

a、包含input时先递归处理上游算子;

b、通过一个hashmap的缓冲池检验是否已经处理过,避免重复处理

c、选择slot共享算法

d、生成StreamNode并加入StreamGraph

e、设置输入输出序列化方式、格式化类型等规则

f、设置算子并行度

g、生成StreamEdge,维护正确的上下游关系

其中如果有多输入或者虚拟节点时,根据具体规则进行节点的拆分重组,然后再递归调用即可,下面看各类型节点的具体处理规则

OneInputTransformation<IN, OUT>



TwoInputTransformation<IN1, IN2, OUT>



SourceTransformation:source节点没有上游节点了,其边的关系由他的下游节点维护即可



SinkTransformation



UnionTransformation:union时,只需维护好上下游的关系即可,正确连接起来



SplitTransformation:split则拆分出两个OutputSelector



SelectTransformation:select当做虚拟算子处理



FeedbackTransformation:feedback比较特殊,形成新类似的source/sink节点对,需要再次分别处理



CoFeedbackTransformation:对比参考FeedbackTransformation

PartitionTransformation:partition也是作为一类虚拟节点来处理,



SideOutputTransformation:类似partition



6、StreamGraph的addSink、addSource以及addOperator、addEdge方法

在transform各类算子时,其实在构建流图时最核心的方法是调用了addOperator和addEdge方法;

addSink和addSource其实是调用了addOperator,同时存储了对应的编码



而addOperator则是调用了addNode方法来添加Node,顺便再次补充设置输入输出的序列化方法和格式化类型



最后来看addNode方法,此处才是真正生成Node并且加入图的方法



addEdge就比较简单了,直接调用addEdgeInternal方法,在addEdgeInternal方法类进行分类处理,如果是虚拟节点就按照对应规则进行拆分重组然后再递归调用,如果是普通节点就构建关系衔接起来即可

至此,整个由StreamExecutionEnvironment中生成StreamGraph的全过程,尤其是构建流图的核心逻辑解析完了

7、最后补充一个点

在StreamExecutionEnvironment中的transforms集合中其实是没有存储source算子的,是由source算子的下游往前找input时补充回去的,看运行时的代码:





对比即可发现,同时在StreamExecutionEnvironment的addSource方法中是没有添加operator操作的

flink1.10版本StreamGraph生成过程分析的更多相关文章

  1. Windows 10 版本 1507 中的新 AppLocker 功能

    要查看 Windows 10 版本信息,使用[运行]> dxdiag  回车 下表包含 Windows 10 的初始版本(版本 1507)中包括的一些新的和更新的功能以及对版本 1511 的 W ...

  2. websocket通讯协议(10版本)简介

    前言: 工作中用到了websocket 协议10版本的,英文的协议请看这里: http://tools.ietf.org/html/draft-ietf-hybi-thewebsocketprotoc ...

  3. 升级 python 2.6.6 系统到 2.7.10 版本

    CentOS 6 系统默认 Python 版本是:2.6.6 平时在使用中遇到很多的库要求是 2.7.x 版本的库,比如使用 ConfigParser 库,在 2.6 版本库就不支持没有 value ...

  4. 20160303 - 升级 Windows 10 版本 1511 后,文件夹默认打开方式为 cmd 的修复

    问题描述:升级 Windows 10 版本 1511 (OS 内部版本 10586.122)后,文件夹的默认打开方式变成了cmd.双击任何一个文件夹,显示相关的提示错误信息如下: [Window Ti ...

  5. 设置Ubuntu 10.10版本的软件源

    设置Ubuntu 10.10版本的软件源 http://blog.csdn.net/xie1xiao1jun/article/details/49911189   网上有很多关于软件源信息的更新,每次 ...

  6. VS2013+Win10+opencv3.0配置(包括opencv2.4.10版本)

    在win下配置opencv3.0.0还是比较简单的,这里简单说一下配置过程:参考链接:http://blog.csdn.net/u010009145/article/details/50756751 ...

  7. swoole1.8.0+版本异步redis安装(本实例为swoole1.8.10版本)详解

    Swoole-1.8.0+版本增加了对异步Redis客户端的支持,基于redis官方提供的hiredis库实现.Swoole提供了__call魔术方法,来映射绝大部分Redis指令(本次安装实例为sw ...

  8. Windows 10 版本信息

    原文 https://technet.microsoft.com/zh-cn/windows/release-info Windows 10 版本信息 Microsoft 已更新其服务模型. 半年频道 ...

  9. 从Ubuntu 18.04 LTS升级到Ubuntu 18.10版本的方法

    从Ubuntu 18.04 LTS升级到Ubuntu 18.10版本的方法 2018-10-18 21:08:39作者:ywnz稿源:云网牛站 本文提供从Ubuntu 18.04 LTS(Bionic ...

随机推荐

  1. swoole热启动

    通过扫描指定的要扫描的目录,把所有文件找出来,分别md5 连接字符串,最后再md5返回 启动定时器,扫描,当前的加密值和以前一样不管,否则就重启服务,把当前赋值给旧值 . httpServer.php ...

  2. VS2010下python3的配置

    最近突然又想学python,但用惯了vs2010后,十分希望能在vs2010中编译python的程序,于是,秉承着不作到死就不死心的原则就开始了我的配置之旅.但事实上并不难哦?.... 1.首先上场的 ...

  3. Java Web核心组件之Servlet的使用介绍

    Servlet是Java Servlet的简称,称为小程序或服务连接器,用Java编写的服务端程序,主要功能在于交互式地浏览和修改数据,生成动态的Web内容:Servlet运行于支持Java的应用服务 ...

  4. Python入门基础教程-准备工作

    作为一名Python的忠实爱好者,在Python的学习过程中趟过了很多坑.不论是在基础语法.爬虫.可视化的学习,亦或是在数据挖掘的项目开展中,整个过程有痛苦也有收获,有捶胸顿足也有仰天长笑.所以在以后 ...

  5. liunx 免密登录远程主机

    #!/bin/bash #Program: # no password login in hosts #History: # hbl 2017/12/9 1.0.0v function auto-lo ...

  6. GitHub如何删除项目库Repositories

    1.在头像那里找到settings按钮 2.选择repositories 3.找到你要删除的项目 4.点击settings 5.滑到页面最下面,点击delete 7.输入项目名称,复制即可 8.删除后 ...

  7. CountDownLatch(减少计数)

    public class Test04 { public static void main(String[] args) throws InterruptedException { CountDown ...

  8. 今日sb题之 sdnuoj 1064

    1 #include <iostream> 2 #include <string> 3 #include <stdio.h> 4 #include <cmat ...

  9. NB-IoT的数据链路层和上行传输信道类型

    NB-IoT的数据链路层 NB-IoT在LTE系统的基础上对数据链路层进行了大量简化,但整体上还是保持了原有的框架.数据链路层是二层协议,包含了3个子层:MAC子层.RLC子层和PDCP子层. 以网络 ...

  10. CH2101可达性问题

    CH2101可达性问题 拓扑排序应用基础 题意描述 具体见书P95. 给定一个N个点,M条边的有向无环图,问每个点直接或间接可到达的点的数量. 算法分析 书中有详细介绍,这里就不再赘述了. 简而言之就 ...