spark 广播变量

Spark广播变量

使用广播变量来优化，广播变量的原理是：

在每一个Executor中保存一份全局变量，task在执行的时候需要使用和这一份变量就可以，极大的减少了Executor的内存开销。

Executor中task在执行的时候如果使用到了广播变量，会找Executor里面的BlockManager来获取广播变量。

如果BlockManager中没有这个关闭变量，会从driver端拉取关闭变量。

在Driver端也有一个blockManagerMaster，其他的task执行的时候直接使用blockmanager中的广播变量就可以。

package SparkStreaming;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.broadcast.Broadcast;

import java.util.Arrays;

import java.util.List;

public class BroadCast {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setMaster("local")

                .setAppName("BroadCast");

        JavaSparkContext sc = new JavaSparkContext(conf);

        /*

        * 使用广播变量，广播变量的定义必须在driver端，因为sc没有被序列化不能被发送到Executor端

        * */

        Broadcast<String> blackname = sc.broadcast("dwj3");

        List<String> name = Arrays.asList(

                "dwj1",

                "dwj2",

                "dwj3");

        //String blackName = "dwj3";

        JavaRDD<String> nameRDD = sc.parallelize(name);

        JavaRDD<String> namefilter = nameRDD.filter(new Function<String, Boolean>() {

            @Override

            public Boolean call(String s) throws Exception {

                String blacknames = blackname.getValue();

                return !blacknames.equals(s);

            }

        });

        List<String> lastname = namefilter.collect();

        for(String str:lastname){

            System.out.println(str);

        }

    }

}

注意：在声明广播变量的时候，必须在driver端，因为sc没有被序列化，是不能被发送到Executor端的。

spark 广播变量的更多相关文章

Spark 广播变量BroadCast
一. 广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量.广播变量可被用于有效地给每个节点一个大输入数据集的副本.Spark还尝试使用高效地广播算法来分发变量,进而 ...
【Spark-core学习之七】 Spark广播变量、累加器
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
spark广播变量定时更新
广播变量先来简单介绍下spark中的广播变量: 广播变量允许程序员缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝.例如,利用广播变量,我们能够以一种更有效率的方式将一个大数据量输入集合 ...
Spark 广播变量和累加器
1. 广播变量理解图使用示例 # word.txt hello scala hello python hello java hello go hello julia hello C++ hello ...
Spark 广播变量和累加器
Spark 的一个核心功能是创建两种特殊类型的变量:广播变量和累加器广播变量(groadcast varible)为只读变量,它有运行SparkContext的驱动程序创建后发送给参与计算的节点.对 ...
Spark广播变量和累加器
一.广播变量图解二.代码 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast& ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
广播变量背景一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化.大表小表Join,小表使用广播的方式,减少Join操作. 参考:Spark广播变量与累加器 L ...
spark累加器、广播变量
一言以蔽之: 累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只 ...

随机推荐

BFS入门
#include<iostream> #include<cstring> #include<queue> using namespace std; #define ...
linux每天一小步---cat命令详解
1 命令功能 cat命令是linux系统下的一个文本输出命令,通常用于查看文件的内容. 2 命令语法 cat [选项参数] 文件名 3 命令参数 -n 由1开始对所有输出的内容行数编号 -b ...
设置UITextField键盘上return key不可点击
今天在做搜索栏时候,发现系统软键盘有下角的“搜索”按钮在输入框无论有没有文字的情况下都是可以点击的状态,记得其他软件在无文字的状态下是不可点击的状态,起初还以为要对textfield的内容做一个判断, ...
vc 使窗口置顶在最前面
bool SetWindowTop(CWnd* pWnd){ if(!pWnd) { return false; } if(pWnd->GetExStyle()&WS_EX_TOPM ...
python + selenium + Js 处理轮动条
selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了. 常见场景: 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. 这时候需要借 ...
ISE、vivado、QuartusII调用notepad++、UE汇总（整理）
我已经用惯了notepad++编写Verilog代码,很喜欢这款编辑器,功能真的非常强大.所以,当需要对vivado.ISE或quartus ii中的工程进行Verilog代码上的编写或修改时,只需双 ...
MSF漏洞攻击练习系统 – Metasploitable2
Metasploitable2 是Metasploit团队维护的一个集成了各种漏洞弱点的Linux主机(ubuntu)镜像,方便广大黑扩跟安全人员进行MSF漏洞测试跟学习,免去搭建各种测试环境.VMw ...
Linux FIO
FIO是测试IOPS的非常好的工具,用来对硬件进行压力测试和验证,支持13种不同的I/O引擎,包括:sync,mmap, libaio, posixaio, SG v3, splice, null, ...
Python 爬虫入门实例（爬取小米应用商店的top应用apk）
一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...
Fiddler4无法抓取HttpWebRequest本地请求的解决办法
网上很多解决案例是如下方代码设置代理,但在我的Fiddler4环境下无效,后寻得官方处理方法证实与代理无关. HttpWebRequest request= WebRequest.Create(&qu ...

spark 广播变量

spark 广播变量的更多相关文章

随机推荐

热门专题