Flink的广播变量

Flink支持广播变量，就是将数据广播到具体的taskmanager上，数据存储在内存中，这样可以减缓大量的shuffle操作；

比如在数据join阶段，不可避免的就是大量的shuffle操作，我们可以把其中一个dataSet广播出去，一直加载到taskManager的内存中，可以直接在内存中拿数据，避免了大量的shuffle，导致集群性能下降；

注意：因为广播变量是要把dataset广播到内存中，所以广播的数据量不能太大，否则会出现OOM这样的问题

Broadcast：Broadcast是通过withBroadcastSet(dataset，string)来注册的

Access：通过getRuntimeContext().getBroadcastVariable(String)访问广播变量

/**

  * Created by angel；

  */

object BrodCast {

  def main(args: Array[String]): Unit = {

    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    //TODO data2  join  data3的数据，使用广播变量完成

    val data2 = new mutable.MutableList[(Int, Long, String)]

    data2.+=((1, 1L, "Hi"))

    data2.+=((2, 2L, "Hello"))

    data2.+=((3, 2L, "Hello world"))

    val ds1 = env.fromCollection(Random.shuffle(data2))

    val data3 = new mutable.MutableList[(Int, Long, Int, String, Long)]

    data3.+=((1, 1L, 0, "Hallo", 1L))

    data3.+=((2, 2L, 1, "Hallo Welt", 2L))

    data3.+=((2, 3L, 2, "Hallo Welt wie", 1L))

    val ds2 = env.fromCollection(Random.shuffle(data3))

    //todo 使用内部类RichMapFunction，提供open和map，可以完成join的操作

    val result = ds1.map(new RichMapFunction[(Int , Long , String) , ArrayBuffer[(Int , Long , String , String)]] {

      var brodCast:mutable.Buffer[(Int, Long, Int, String, Long)] = null

      override def open(parameters: Configuration): Unit = {

        import scala.collection.JavaConverters._

        //asScala需要使用隐式转换

        brodCast = this.getRuntimeContext.getBroadcastVariable[(Int, Long, Int, String, Long)]("ds2").asScala

      }

      override def map(value: (Int, Long, String)):ArrayBuffer[(Int , Long , String , String)] = {

        val toArray: Array[(Int, Long, Int, String, Long)] = brodCast.toArray

        val array = new mutable.ArrayBuffer[(Int , Long , String , String)]

        var index = 0

        var a:(Int, Long, String, String) = null

        while(index < toArray.size){

          if(value._2 == toArray(index)._5){

            a = (value._1 , value._2 , value._3 , toArray(index)._4)

            array += a

          }

          index = index + 1

        }

        array

      }

    }).withBroadcastSet(ds2 , "ds2")

    println(result.collect())

  }

}

Flink的广播变量的更多相关文章

Flink 的广播变量
Flink 支持广播变量,就是将数据广播到具体的 taskmanager 上,数据存储在内存中,这样可以减缓大量的 shuffle 操作: 比如在数据 join 阶段,不可避免的就是大量的 shuff ...
[源码分析] 从实例和源码入手看 Flink 之广播 Broadcast
[源码分析] 从实例和源码入手看 Flink 之广播 Broadcast 0x00 摘要本文将通过源码分析和实例讲解,带领大家熟悉Flink的广播变量机制. 0x01 业务需求 1. 场景需求对黑 ...
初识Flink广播变量broadcast
Broadcast 广播变量:可以理解为是一个公共的共享变量,我们可以把一个dataset 或者不变的缓存对象(例如map list集合对象等)数据集广播出去,然后不同的任务在节点上都能够获取到,并在 ...
广播变量、累加器、collect
广播变量.累加器.collect spark集群由两类集群构成:一个驱动程序,多个执行程序. 1.广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送 ...
Spark大师之路：广播变量（Broadcast）源代码分析
概述近期工作上忙死了--广播变量这一块事实上早就看过了,一直没有贴出来. 本文基于Spark 1.0源代码分析,主要探讨广播变量的初始化.创建.读取以及清除. 类关系 BroadcastManage ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
SparkCore | Rdd| 广播变量和累加器
Spark中三大数据结构:RDD: 广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作 ...
Spark 广播变量BroadCast
一. 广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量.广播变量可被用于有效地给每个节点一个大输入数据集的副本.Spark还尝试使用高效地广播算法来分发变量,进而 ...

随机推荐

PHP超精简文章管理系统 Summer Article
2017年3月8日 21:18:43 星期三 git: https://git.oschina.net/myDcool/article.git 截图:
前端 ---client、offset、scroll系列
client.offset.scroll系列 1.client系列代码如下: <!DOCTYPE html> <html> <head> <meta c ...
前端 ----js的事件流的概念（重要）
09-JS的事件流的概念(重点) 在学习jQuery的事件之前,大家必须要对JS的事件有所了解.看下文事件的概念 HTML中与javascript交互是通过事件驱动来实现的,例如鼠标点击事件.页 ...
[C]变量作用域
函数环境变量作用域 C语言栈环境变量作用域跟JS是类似的. 就是内部函数可以访问外部函数的执行(栈)环境变量. 当访问一个变量时,程序将会查询当前栈环境是否存在这个变量,如果没有,将会往上层栈环境继续 ...
Codeforces 446C DZY Loves Fibonacci Numbers [线段树，数论]
洛谷 Codeforces 思路这题知道结论就是水题,不知道就是神仙题-- 斐波那契数有这样一个性质:\(f_{n+m}=f_{n+1}f_m+f_{n}f_{m-1}\). 至于怎么证明嘛-- 即 ...
CentOS 7 连接ssh方法
自己在VMware中装了CentOS 6.3,然后主机(或者说xshell)与里面的虚拟机连不通,刚学习,一头雾水,查了半天,也不知道怎么弄. 经指点,找到下面这篇文章,感谢博主: http://bl ...
eclipse 安装教程
eclipse 安装教程一:安装包下载: 链接: https://pan.baidu.com/s/1qZtt62o 密码: 4ak2 注:若下载链接失效,请看本文公告的QQ群,请联系群主. 二:安 ...
整合 JIRA 和 Confluence 6
Jira 应用和 Confluence 可以完全的整合在一起.在 Confluence 中收集你项目组成员的想法,知识和计划.在 Jira 中跟踪你的系统出现的问题,让这 2 个应用同时工作. 了解更 ...
automaticallyAdjustsScrollViewInsets 详解
automaticallyAdjustsScrollViewInsets 自动缩进 20 像素默认是 True 项目中如果有UIViewController 和ScrollView 一般都要设置成f ...
vue 循环前十条数据
v-for="(item, index) in items" v-if="index<10"

Flink的广播变量

Flink的广播变量的更多相关文章

随机推荐

热门专题