Flink - CoGroup

使用方式，

dataStream.coGroup(otherStream)

    .where(0).equalTo(1)

    .window(TumblingEventTimeWindows.of(Time.seconds(3)))

    .apply (new CoGroupFunction () {...});

可以看到coGroup只是产生CoGroupedStreams

    public <T2> CoGroupedStreams<T, T2> coGroup(DataStream<T2> otherStream) {

        return new CoGroupedStreams<>(this, otherStream);

    }

而where， equalTo只是添加keySelector，对于两个流需要分别指定

keySelector1，keySelector2

window设置双流的窗口，很容易理解

apply，

       /**

         * Completes the co-group operation with the user function that is executed

         * for windowed groups.

         *

         * <p>Note: This method's return type does not support setting an operator-specific parallelism.

         * Due to binary backwards compatibility, this cannot be altered. Use the

         * {@link #with(CoGroupFunction, TypeInformation)} method to set an operator-specific parallelism.

         */

        public <T> DataStream<T> apply(CoGroupFunction<T1, T2, T> function, TypeInformation<T> resultType) {

            //clean the closure

            function = input1.getExecutionEnvironment().clean(function);

            UnionTypeInfo<T1, T2> unionType = new UnionTypeInfo<>(input1.getType(), input2.getType());

            UnionKeySelector<T1, T2, KEY> unionKeySelector = new UnionKeySelector<>(keySelector1, keySelector2);

            DataStream<TaggedUnion<T1, T2>> taggedInput1 = input1 //将input1封装成TaggedUnion，很简单，就是赋值到one上

                    .map(new Input1Tagger<T1, T2>())

                    .setParallelism(input1.getParallelism())

                    .returns(unionType);

            DataStream<TaggedUnion<T1, T2>> taggedInput2 = input2 //将input2封装成TaggedUnion

                    .map(new Input2Tagger<T1, T2>())

                    .setParallelism(input2.getParallelism())

                    .returns(unionType);

            DataStream<TaggedUnion<T1, T2>> unionStream = taggedInput1.union(taggedInput2); //由于现在双流都是TaggedUnion类型，union成一个流，问题被简化

            // we explicitly create the keyed stream to manually pass the key type information in

            WindowedStream<TaggedUnion<T1, T2>, KEY, W> windowOp = //创建窗口

                    new KeyedStream<TaggedUnion<T1, T2>, KEY>(unionStream, unionKeySelector, keyType)

                    .window(windowAssigner);

            if (trigger != null) { //如果有trigger，evictor，设置上

                windowOp.trigger(trigger);

            }

            if (evictor != null) {

                windowOp.evictor(evictor);

            }

            return windowOp.apply(new CoGroupWindowFunction<T1, T2, T, KEY, W>(function), resultType); //调用window的apply

        }

关键理解，他要把两个流变成一个流，这样问题域就变得很简单了

最终调用到WindowedStream的apply，apply是需要保留window里面的所有原始数据的，和reduce不一样

apply的逻辑，是CoGroupWindowFunction

private static class CoGroupWindowFunction<T1, T2, T, KEY, W extends Window>

            extends WrappingFunction<CoGroupFunction<T1, T2, T>>

            implements WindowFunction<TaggedUnion<T1, T2>, T, KEY, W> {

        private static final long serialVersionUID = 1L;

        public CoGroupWindowFunction(CoGroupFunction<T1, T2, T> userFunction) {

            super(userFunction);

        }

        @Override

        public void apply(KEY key,

                W window,

                Iterable<TaggedUnion<T1, T2>> values,

                Collector<T> out) throws Exception {

            List<T1> oneValues = new ArrayList<>();

            List<T2> twoValues = new ArrayList<>();

            for (TaggedUnion<T1, T2> val: values) {

                if (val.isOne()) {

                    oneValues.add(val.getOne());

                } else {

                    twoValues.add(val.getTwo());

                }

            }

            wrappedFunction.coGroup(oneValues, twoValues, out);

        }

    }

}

逻辑也非常的简单，就是将该key所在window里面的value，放到oneValues， twoValues两个列表中

最终调用到用户定义的wrappedFunction.coGroup

DataStream.join就是用CoGroup实现的

            return input1.coGroup(input2)

                    .where(keySelector1)

                    .equalTo(keySelector2)

                    .window(windowAssigner)

                    .trigger(trigger)

                    .evictor(evictor)

                    .apply(new FlatJoinCoGroupFunction<>(function), resultType);

FlatJoinCoGroupFunction

private static class FlatJoinCoGroupFunction<T1, T2, T>

            extends WrappingFunction<FlatJoinFunction<T1, T2, T>>

            implements CoGroupFunction<T1, T2, T> {

        private static final long serialVersionUID = 1L;

        public FlatJoinCoGroupFunction(FlatJoinFunction<T1, T2, T> wrappedFunction) {

            super(wrappedFunction);

        }

        @Override

        public void coGroup(Iterable<T1> first, Iterable<T2> second, Collector<T> out) throws Exception {

            for (T1 val1: first) {

                for (T2 val2: second) {

                    wrappedFunction.join(val1, val2, out);

                }

            }

        }

    }

可以看出当前join是inner join，必须first和second都有的情况下，才会调到用户的join函数

Flink - CoGroup的更多相关文章

Alink漫谈(十六) ：Word2Vec源码分析之建立霍夫曼树
Alink漫谈(十六) :Word2Vec源码分析之建立霍夫曼树目录 Alink漫谈(十六) :Word2Vec源码分析之建立霍夫曼树 0x00 摘要 0x01 背景概念 1.1 词向量基础 ...
Flink学习笔记：Operators之CoGroup及Join操作
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink入门 - CoGroup和Join
/* *CoGroup */ final StreamExecutionEnvironment streamExecutionEnvironment = StreamExecutionEnvironm ...
Flink实例（五十）: Operators（十）多流转换算子（五）coGroup 与union
参考链接:https://mp.weixin.qq.com/s/BOCFavYgvNPSXSRpBMQzBw 需求场景分析需求场景需求诱诱诱来了...数据产品妹妹想要统计单个短视频粒度的「点赞,播 ...
Flink Program Guide （2） -- 综述（DataStream API编程指导 -- For Java）
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
Flink Program Guide （1） -- 基本API概念（Basic API Concepts -- For Java）
false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-n ...
Flink从入门到放弃(入门篇3)-DataSetAPI
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink Java Demo（Windows）
关于Flink相关的概念性东西就不说了,网上都有,官网也很详尽.本文主要记录一下Java使用Flink的简单例子. 首先,去官网下载Flink的zip包(链接就不提供了,你已经是个成熟的程序员了,该有 ...
Flink官网文档翻译
http://ifeve.com/flink-quick-start/ http://vinoyang.com/2016/05/02/flink-concepts/ http://wuchong.me ...

随机推荐

物联网架构成长之路(5)-EMQ插件配置
1. 前言上一小结说了插件的创建,这一节主要怎么编写代码,以及具体流程之类的.2. 增加一句Hello World 修改 ./deps/emq_plugin_wunaozai/src/emq_plu ...
vue使用node的入门
1.安装cnpm npm install -g cnpm --registry=https://registry.npm.taobao.org 验证是否安装 cnpm -v 2.安装vue cnpm ...
Java知多少（99）Graphics2D类的绘图方法
Java语言在Graphics类提供绘制各种基本的几何图形的基础上,扩展Graphics类提供一个Graphics2D类,它拥用更强大的二维图形处理能力,提供.坐标转换.颜色管理以及文字布局等更精确的 ...
Intellij IDEA 2015 导入MyEClipse工程
一.步骤说明 File->New->Projet from existing sources,选择要导入的项目,并且导入项目; 打开 “open module settings”进行设置: ...
#Java学习之路——基础阶段二（第十篇）
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
oracle表空间不足扩容的方法
1.查询当前用户的所属表空间 select * from user_users; 2.增加表空间有两种方法: 以sysdba登陆进数据库语法: alter tablespace 表空间名称 add ...
[Model] GoogLeNet
主要就是对Inception Module的理解网络结构分析没有densy layer竟然,这是给手机上运行做铺垫么. 一个新型的模块设计: [不同类型的layer并行放在了一起] 最初的设计: ...
akka cluster 初体验
cluster 配置 akka { actor { provider = "akka.cluster.ClusterActorRefProvider" } remote { log ...
Nginx-设定允许的ip和要拒绝的ip
作用范围和配置的顺序有关系,先配置的优先级高,会覆盖和后一个配置重合的部分, 可以添加多个allow和多个deny: 1)这个配置127.0.0.1可以通过访问. allow 127.0.0.1; d ...
[APUE]进程控制(下)
一.更改用户ID和组ID 可以用setuid设置实际用户ID和有效用户ID.可以用setgid函数设置实际组ID和有效组ID. #include <sys/types.h> #includ ...

Flink - CoGroup

Flink - CoGroup的更多相关文章

随机推荐

热门专题