Spark-Join优化之Broadcast

适用场景

进行join中至少有一个RDD的数据量比较少（比如几百M，或者1-2G)
因为，每个Executor的内存中，都会驻留一份广播变量的全量数据

Broadcast与map进行join代码示例

创建RDD

val list1 = List((jame,), (wade,), (kobe,))

val list2 = List((jame,cave), (wade,bulls), (kobe,lakers))

val rdd1 = sc.makeRDD(list1)

val rdd2 = sc.makeRDD(list2)

传统的join

// 传统的join操作会导致shuffle操作。

// 因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。

val rdd3 = rdd1.join(rdd2)

// 结果如下

scala> rdd1.join(rdd2).collect

res27: Array[(String, (Int, String))] = Array((kobe,(,lakers)), (wade,(,bulls)), (jame,(,cave)))

使用Broadcast+map的join操作

// Broadcast+map的join操作，不会导致shuffle操作。

// 使用Broadcast将一个数据量较小的RDD作为广播变量

val rdd2Data = rdd2.collect()

val rdd2Bc = sc.broadcast(rdd2Data)

// 在rdd1.map算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。

// 然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。

def function(tuple: (String,Int)): (String,(Int,String)) ={

    for(value <- rdd2Bc.value){

     if(value._1.equals(tuple._1))

        return (tuple._1,(tuple._2,value._2.toString))

         }

         (tuple._1,(tuple._2,null))

         }

// 在rdd1.map算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。

// 然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。

// 此时就可以根据自己需要的方式，将rdd1当前数据与rdd2中可以连接的数据，拼接在一起（String或Tuple）。

val rdd3 = rdd1.map(function(_))

//结果如下,达到了与传统join相同的效果

scala> rdd1.map(function(_)).collect

res31: Array[(String, (Int, String))] = Array((jame,(,cave)), (wade,(,bulls)), (kobe,(,lakers)))

Spark-Join优化之Broadcast的更多相关文章

【转载】Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数 ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
spark核心优化详解
大家好!转眼又到了经验分享的时间了.吼吼,我这里没有摘要也没有引言,只有单纯的经验分享,请见谅哦! 言归正传,目前在大数据领域能够提供的核心计算的工具,如离线计算hadoop生态圈的mr计算模型,以及 ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
Spark性能优化指南——高级篇（转载）
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问 ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南-高级篇
转自https://tech.meituan.com/spark-tuning-pro.html,感谢原作者的贡献前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...

随机推荐

sql优化 in 和 not in 语句
WHY? IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢? 1.效率低可以参看我之前遇到的一个例子([小问题笔记(九)] SQL语句Not IN 效率低,用 NOT EXISTS试试 ...
ACM-The Coco-Cola Store
题目: Once upon a time, there is a special coco-cola store. If you return three empty bottles to the s ...
bestcoder15_love
#include <iostream> #include <stdio.h> #include <string.h> #include <vector> ...
TestNG测试执行顺序
1.preserve-order属性,之前一直认为preserve-order属性是控制配置方法的执行顺序的,其实不是,preserve-order主要是控制test下节点classes执行顺序的例 ...
Registering RHEL6 Clients into spacewalk
Before Starting(login to spacwalk server) 1.Create a base channel within Spacewalk (Channels > Ma ...
bzoj 1111 - 四进制的天平
Description 给定 1000的十进制数, 求最小的四幂拆分方案有多少种 Solution 先大除法 \(n\log_4(n)\)次取余转化为四进制数. 然后从低位往高位 \( ...
Linux : 使用 lsof 恢复文件
用 lsof 命令在某种程度上可以恢复删除的文件, 前提是这个文件被正在运行的进程占用. 比如: 日志文件, 配置文件. lsof 恢复文件查找需要恢复的文件和占用文件的进程 PID lsof |g ...
sql 查找表引用的存储过程
USE [master] GO /****** Object: StoredProcedure [dbo].[uspGetDepends] Script Date: 05/12/2016 14:11: ...
Appium+python自动化7-输入中文【转载】
前言在做app自动化过程中会踩很多坑,咱们都是用的中文的app,所以首先要解决中文输入的问题! 本篇通过屏蔽软键盘,绕过手机的软键盘方法,解决中文输入问题. 一.定位搜索 1.打开淘宝点搜索按钮,进 ...
git使用教程1-本地代码上传到github【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/git/ 前言不会使用github都不好意思说自己是码农,github作为一个开源的代 ...

Spark-Join优化之Broadcast

适用场景

Broadcast与map进行join代码示例

创建RDD

传统的join

使用Broadcast+map的join操作

Spark-Join优化之Broadcast的更多相关文章

随机推荐

热门专题