前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现

1.分析下面的代码

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object JoinDemo {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]")

    val sc = new SparkContext(conf)

    sc.setLogLevel("WARN")

    val random = scala.util.Random

    val col1 = Range(1, 50).map(idx => (random.nextInt(10), s"user$idx"))

    val col2 = Array((0, "BJ"), (1, "SH"), (2, "GZ"), (3, "SZ"), (4, "TJ"), (5, "CQ"), (6, "HZ"), (7, "NJ"), (8, "WH"), (0, "CD"))

    val rdd1: RDD[(Int, String)] = sc.makeRDD(col1)

    val rdd2: RDD[(Int, String)] = sc.makeRDD(col2)

    val rdd3: RDD[(Int, (String, String))] = rdd1.join(rdd2)

    println(rdd3.dependencies)

    val rdd4: RDD[(Int, (String, String))] = rdd1.partitionBy(new HashPartitioner(3)).join(rdd2.partitionBy(new HashPartitioner(3)))

    println(rdd4.dependencies)

    sc.stop()

  }

}

分析上面一段代码，打印结果是什么，这种join是宽依赖还是窄依赖，为什么是这样

2.从spark的ui界面来查看运行情况

关于stage划分和宽依赖窄依赖的关系，从2.1.3 如何区别宽依赖和窄依赖就知道stage与宽依赖对应，所以从rdd3和rdd4的stage的依赖图就可以区别宽依赖，可以看到join划分除了新的stage，所以rdd3的生成事宽依赖，另外rdd1.partitionBy(new HashPartitioner(3)).join(rdd2.partitionBy(new HashPartitioner(3))) 是另外的依赖图，所以可以看到partitionBy以后再没有划分新的 stage，所以是窄依赖。

3.join的源码实现

前面知道结论，是从ui图里面看到的，现在看join源码是如何实现的（基于spark2.4.5）

先进去入口方法，其中withScope的做法可以理解为装饰器，为了在sparkUI中能展示更多的信息。所以把所有创建的RDD的方法都包裹起来，同时用RDDOperationScope 记录 RDD 的操作历史和关联，就能达成目标。

  /**

   * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each

   * pair of elements will be returned as a (k, (v1, v2)) tuple, where (k, v1) is in `this` and

   * (k, v2) is in `other`. Performs a hash join across the cluster.

   */

  def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] = self.withScope {

    join(other, defaultPartitioner(self, other))

  }

下面来看defaultPartitioner 的实现，其目的就是在默认值和分区器之间取一个较大的，返回分区器

def defaultPartitioner(rdd: RDD[_], others: RDD[_]*): Partitioner = {

    val rdds = (Seq(rdd) ++ others)

    // 判断有没有设置分区器partitioner

    val hasPartitioner = rdds.filter(_.partitioner.exists(_.numPartitions > 0))

    //如果设置了partitioner，则取设置partitioner的最大分区数

    val hasMaxPartitioner: Option[RDD[_]] = if (hasPartitioner.nonEmpty) {

      Some(hasPartitioner.maxBy(_.partitions.length))

    } else {

      None

    }

    //判断是否设置了spark.default.parallelism，如果设置了则取spark.default.parallelism

    val defaultNumPartitions = if (rdd.context.conf.contains("spark.default.parallelism")) {

      rdd.context.defaultParallelism

    } else {

      rdds.map(_.partitions.length).max

    }

    // If the existing max partitioner is an eligible one, or its partitions number is larger

    // than the default number of partitions, use the existing partitioner.

    //主要判断传入rdd是否设置了默认的partitioner 以及设置的partitioner是否合法

    //或者设置的partitioner分区数大于默认的分区数

    //条件成立则取传入rdd最大的分区数，否则取默认的分区数

    if (hasMaxPartitioner.nonEmpty && (isEligiblePartitioner(hasMaxPartitioner.get, rdds) ||

        defaultNumPartitions < hasMaxPartitioner.get.getNumPartitions)) {

      hasMaxPartitioner.get.partitioner.get

    } else {

      new HashPartitioner(defaultNumPartitions)

    }

  }

  private def isEligiblePartitioner(

     hasMaxPartitioner: RDD[_],

     rdds: Seq[RDD[_]]): Boolean = {

    val maxPartitions = rdds.map(_.partitions.length).max

    log10(maxPartitions) - log10(hasMaxPartitioner.getNumPartitions) < 1

  }

}

再进入join的重载方法，里面有个new CoGroupedRDD[K](Seq(self, other), partitioner)

def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] = self.withScope {

    this.cogroup(other, partitioner).flatMapValues( pair =>

      for (v <- pair._1.iterator; w <- pair._2.iterator) yield (v, w)

    )

  }

def cogroup[W](other: RDD[(K, W)], partitioner: Partitioner)

    : RDD[(K, (Iterable[V], Iterable[W]))] = self.withScope {

  if (partitioner.isInstanceOf[HashPartitioner] && keyClass.isArray) {

    throw new SparkException("HashPartitioner cannot partition array keys.")

  }

  //partitioner 通过对比得到的默认分区器，主要是分区器中的分区数

  val cg = new CoGroupedRDD[K](Seq(self, other), partitioner)

  cg.mapValues { case Array(vs, w1s) =>

    (vs.asInstanceOf[Iterable[V]], w1s.asInstanceOf[Iterable[W]])

  }

}

  /**

   * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each

   * pair of elements will be returned as a (k, (v1, v2)) tuple, where (k, v1) is in `this` and

   * (k, v2) is in `other`. Performs a hash join across the cluster.

   */

  def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] = self.withScope {

    join(other, new HashPartitioner(numPartitions))

  }

最后来看CoGroupedRDD，这是决定是宽依赖还是窄依赖的地方，可以看到如果左边rdd的分区和上面选择给定的分区器一致，则认为是窄依赖，否则是宽依赖

  override def getDependencies: Seq[Dependency[_]] = {

    rdds.map { rdd: RDD[_] =>

      if (rdd.partitioner == Some(part)) {

        logDebug("Adding one-to-one dependency with " + rdd)

        new OneToOneDependency(rdd)

      } else {

        logDebug("Adding shuffle dependency with " + rdd)

        new ShuffleDependency[K, Any, CoGroupCombiner](

          rdd.asInstanceOf[RDD[_ <: Product2[K, _]]], part, serializer)

      }

    }

  }

总结，join时候可以指定分区数，如果join操作左右的rdd的分区方式和分区数一致则不会产生shuffle，否则就会shuffle，而是宽依赖，分区方式和分区数的体现就是分区器。

吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。

更多请关注

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖的更多相关文章

大数据开发实战：HDFS和MapReduce优缺点分析
一. HDFS和MapReduce优缺点 1.HDFS的优势 HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子 ...
大数据开发-Spark-拷问灵魂的5个问题
1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①.把磁盘上的500G数据分割为100块(chunks),每份5GB.(注意,要留一些系统空间! ...
大数据开发-Flink-数据流DataStream和DataSet
Flink主要用来处理数据流,所以从抽象上来看就是对数据流的处理,正如前面大数据开发-Flink-体系结构 && 运行架构提到写Flink程序实际上就是在写DataSource.Tra ...
2019春招——Vivo大数据开发工程师面经
Vvio总共就一轮技术面+一轮HR面,技术面总体而言,比较宽泛,比较看中基础,面试的全程没有涉及简历上的东西(都准备好跟他扯项目了,感觉是抽取的题库...)具体内容如下: 1.熟悉Hadoop哪些组件 ...
杭州某知名xxxx公司急招大量java以及大数据开发工程师
因公司战略以及业务拓展,收大量java攻城狮以及大数据开发攻城狮. 职位信息: java攻城狮: https://job.cnblogs.com/offer/56032 大数据开发攻城狮: https ...
大数据开发实战：Stream SQL实时开发三
4.聚合操作 4.1.group by 操作 group by操作是实际业务场景(如实时报表.实时大屏等)中使用最为频繁的操作.通常实时聚合的主要源头数据流不会包含丰富的上下文信息,而是经常需要实时关 ...
大数据开发实战：Stream SQL实时开发二
1.介绍本节主要利用Stream SQL进行实时开发实战,回顾Beam的API和Hadoop MapReduce的API,会发现Google将实际业务对数据的各种操作进行了抽象,多变的数据需求抽象为 ...
大数据开发实战：Stream SQL实时开发一
1.流计算SQL原理和架构流计算SQL通常是一个类SQL的声明式语言,主要用于对流式数据(Streams)的持续性查询,目的是在常见流计算平台和框架(如Storm.Spark Streaming.F ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...

随机推荐

pytest：通过scope控制fixture的作用范围
一.fixture里面有个参数scope,通过scope可以控制fixture的作用范围,根据作用范围大小划分:session>module>class>function,具体作用范 ...
CTO也糊涂的常用术语：功能模块、业务架构、用户需求、文档……
功能模块.业务架构.需求分析.用户需求.系统分析.功能设计.详细设计.文档.业务.技术--很多被随口使用的名词,其实是含糊甚至错误的. 到底含糊在哪里,错误在哪里,不仅仅是新手软件开发人员糊涂,许多入 ...
Linux kernel 同步机制
Linux kernel同步机制(上篇) https://mp.weixin.qq.com/s/mosYi_W-Rp1-HgdtxUqSEgLinux kernel 同步机制(下篇) https:// ...
WebRTC 泄漏真实 IP 地址
WebRTC(网页即时通信,Web Real-Time Communication) 它允许浏览器内进行实时语音或视频对话,而无需添加额外的浏览器扩展.包括 Chrome.Firefox.Opera. ...
CPU处理器架构和工作原理浅析
CPU处理器架构和工作原理浅析 http://c.biancheng.net/view/3456.html 汇编语言是学习计算机如何工作的很好的工具,它需要我们具备计算机硬件的工作知识. 基本微机设计 ...
后端API接口的错误信息返回规范
前言最近我司要制定开发规范.在讨论接口返回的时候,后端的同事询问我们前端,错误信息的返回,前端有什么意见? 所以做了一些调研给到后端的同事做参考. 错误信息返回在使用API时无可避免地会因为各种情 ...
loj10103电力
题目描述原题来自:CTU Open 2004 求一个图删除一个点之后,联通块最多有多少. 输入格式多组数据.第一行两个整数 P,C 表示点数和边数.接下来 C 行每行两个整数 ,表示 P1 与 ...
SpringMVC听课笔记（二：SpringMVC的 HelloWorld）
1.如何建Maven web项目,请看http://how2j.cn/k/maven/maven-eclipse-web-project/1334.html 2.Maven项目,pom文件中的jar包 ...
Box Model 盒子模型
Box Model盒子模型,是初学者在学习HTMl5时会学到的一个重要的模型,也有一些人称它为框模型,因为盒子是属于3维,而框是平面的.称之为盒子模型,是因为其结构和盒子十分相似,其最外面是margi ...
Struts 2学习（二）
文章目录 @[toc] #动态结果配置时不知道执行后的结果是哪一个,运行时才知道哪个结果作为视图显示给用户. #全局结果全局就结果可满足一个包中多个Action共享一个结果. 全局结果位于pack ...

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

1.分析下面的代码

2.从spark的ui界面来查看运行情况

3.join的源码实现

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖的更多相关文章

随机推荐

热门专题