如果想在节点之间共享一份变量，spark提供了两种特定的共享变量，来完成节点之间的变量共享。

（1）广播变量（2）累加器

二、广播变量

概念：

广播变量允许程序员缓存一个只读的变量在每台机器上，而不是每个任务保存一个拷贝。例如，利用广播变量，我们能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。

一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量v中创建。广播变量是v的一个包装变量，它的值可以通过value方法访问。

用途：比如一个配置文件，可以共享给所有节点。比如一个Node的计算结果需要共享给其他节点。

声明：broadcast

调用broadcast，Scala中一切可序列化的对象都可以进行广播。

sc.broadcast(xxx)

引用广播变量数据：value

可在各个计算节点中通过 bc.value来引用广播的数据。

更新广播变量：unpersist

由于广播变量是只读的，即广播出去的变量没法再修改，

利用unpersist函数将老的广播变量删除，然后重新广播一遍新的广播变量。

bc.unpersist()

销毁广播变量：destroy

bc.destroy()可将广播变量的数据和元数据一同销毁，销毁之后就不能再使用了。

三、累加器

概念：

累加器是一种只能利用关联操作做“加”操作的变数，因此他能够快速执行并行操作。而且其能够操作counters和sums。Spark原本支援数值类型的累加器，程序员可以自行增加可被支援的类型。如果建立一个具体的累加器，其可在spark UI上显示。

用途：

对信息进行聚合，累加器的一个常见的用途是在调试时对作业的执行过程中事件进行计数。

创建累加器：accumulator

调用SparkContext.accumulator(v)方法从一个初始变量v中创建。

运行在集群上的任务可以通过add方法或者使用+=操作来给它加值。然而，它们无法读取这个值。和广播变量相反，累加器是一种add only的变项。

累加器的陷阱

打破累加器陷阱：persist函数

存累加器初始值：

累加器实现一些基本的功能：

（5）pyspark----共享变量的更多相关文章

pyspark 内容介绍（一）
pyspark 包介绍子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package ...
5 pyspark学习---Broadcast&Accumulator&sparkConf
1 对于并行处理,Apache Spark使用共享变量.当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了. 2 两种支持得类型 (1)Broa ...
spark教程(14)-共享变量
spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU.内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据举例来说,如果一个 RDD 操作使用了驱动程 ...
Spark——共享变量
Spark执行不少操作时都依赖于闭包函数的调用,此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作: 1.驱动程序使将闭包中使用变量封装成对 ...
spark 2.0 中 pyspark 对接 Ipython
pyspark 2.0 对接 ipython 在安装spark2.0 后,以往的对接ipython方法失效,会报如下错错误: 因为在spark2.0后对接ipython的方法进行了变更我们只需要在py ...
sparksql---通过pyspark实现
上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带大神2:dataset主要是用来实现sql的,跟ml ...
动手学servlet(五) 共享变量
1. 无论对象的作用域如何,设置和读取共享变量的方法是一致的 -setAttribute("varName",obj); -getAttribute("varName&q ...
Win7 单机Spark和PySpark安装
欢呼一下先.软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了.加油加油!!! 1. 安装方法参考: 已安装Pycharm 和 Intellij IDEA. win7 PySpark ...
Java多线程——线程范围内共享变量
多个线程访问共享对象和数据的方式 1.如果每个线程执行的代码相同,可以使用同一个Runnable对象,这个Runnable对象中有那个共享数据,例如,买票系统就可以这么做. package java_ ...
jupyter notebook + pyspark 环境搭建
安装并启动jupyter 安装 Anaconda 后, 再安装 jupyter pip install jupyter 设置环境 ipython --ipython-dir= # override t ...

随机推荐

解决python3在sublim Text3中中文乱码的问题
在Tool >> BulidingSystem 中新建 python3 写入如下代码 { "cmd": ["C:/python3/python.exe&q ...
BZOJ 3028 食物 (生成函数+数学题)
题面:BZOJ传送门题目让我们求这些物品在合法范围内任意组合,一共组合出$n$个物品的方案数考虑把每种食物都用生成函数表示出来,然后用多项式乘法把它们乘起来,第$n$项的系数就是方案数汉堡:$1 ...
NFS学习
linux下搭建nfs服务: NFS是network filesystem的缩写,它可以通过网络,让不同的机器.不同的操作系统共享文件. NFS支持的功能比较多,默认端口也是随机的,基于远程调用服务( ...
【codeforces 724E】Goods transportation
[题目链接]:http://codeforces.com/problemset/problem/724/E [题意] 有n个城市; 这个些城市每个城市有pi单位的物品; 然后已知每个城市能卖掉si单位 ...
利用redis实现elasticsearch入库去重
背景公司有一个业务场景,数据库的修改需要同步到Elasticsearch里,但是该场景的修改频率有点高,经常会出现一条记录短时间内多次的变化,如果每次变化都作为一次ES同步任务,那ES肯定是受不住的 ...
设计模式之二十：责任链模式(Chain of Responsibility)
感觉这个设计模式和组合模式一样是一种非常巧妙的设计模式,在须要使用它的地方假设不使用这样的设计模式代码会变的非常复杂,可是这样的设计模式的基本原理又是非常easy的. 责任链模式: 通过使多个对象都有 ...
jQuery动画animate()的使用
自己定义动画效果: 使用方法:animate(js对象,运行时间.回调函数): js对象:{ }描写叙述动画运行之后元素的样式运行时间:毫秒数回调函数:动画运行结束后要运行的函数 html代码: ...
光标属性CSS cursor 属性
CSS cursor 属性 CSS cursor属性,以前不知道,如果以后用到自己看的 <html> <body> <p>请把鼠标移动到单词上,可以看到鼠标指针发生 ...
UIPickerView的自定义视图
UIPickerView允许开发者对列表项进行任意定制开发者只要实现UIPickerViewDelegate协议中的-pickerView:viewForRow:forComponent: reus ...
百度ai和图灵123实现简单的语音对话
百度ai和图灵123实现简单的语音对话

（5）pyspark----共享变量