从三个方面来分析：1.什么时候使用，2.原理是什么3.性能上有什么优化

累加变量：--(自定义累加器很重要)

使用场景：累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数，如：统计日志中空行数、统计错误行数等；统计电商网站走一步到两步的人有多少，。。。。即步伐的计算；

原理：

task只能对Accumulator进行累加操作，不能读取它的值。
只有Driver程序可以读取Accumulator的值。

性能优化：

因为每个机器上都要对数据进行计算分析，最后要将各个节点计算的数据进行累加，此时如果定义多个变量来对数据进行累加计算，而此时统计起来非常困难，则应该自定义一个整体变量来实现累加；对总体进行累加计算，累加之后返回给客户端，并且这种累加器也只能在客户端读取。

Accumulator可以让多个task共同操作一份变量，主要可以进行累加操作。

广播变量：

使用场景：比如数据库中一份公共配置表格，需要同步给各个节点进行查询

原理：

通过调用SparkContext的broadcast()方法，来针对某个变量创建广播变量。
然后在算子的函数内，使用到广播变量时，每个Excutor只会拷贝一份副本了。每个
节点可以使用广播变量的value()方法获取值。

性能优化：

Broadcast Variable会将使用到的变量，
仅仅为每个Excutor拷贝一份，更大的用处是优化性能，减少网络传输以及内存消耗。

Spark踩坑记：共享变量

spark共享变量---广播变量和累加变量的更多相关文章

Spark共享变量(广播变量、累加器)
转载自:https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量:广播变量(broadcast variable)与 ...
Spark 自定义累加变量(Accmulator)AccumulatorParam
1.创建一个累加变量 public <T> Accumulator<T> accumulator(T initialValue, AccumulatorParam<T&g ...
Python语言程序设计之一--for循环中累加变量是否要清零
最近学到了Pyhton中循环这一章.之前也断断续续学过,但都只是到了函数这一章就停下来了,写过的代码虽然保存了下来,但是当时的思路和总结都没有记录下来,很可惜.这次我开通了博客,就是要把这些珍贵的学习 ...
Spark——共享变量
Spark执行不少操作时都依赖于闭包函数的调用,此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作: 1.驱动程序使将闭包中使用变量封装成对 ...
7.spark共享变量
spark共享变量 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
js的变量声明以及变量提升
js的变量声明: js正常的变量声明就不多讲了,形如var a=1;这样的变量声明在实际开发中最常用. var a=1,b=2;这种以逗号分隔开的一次声明多个变量,其实相当于var a=1; var ...
Shell--变量的显示与设置、环境变量、语系变量
1.变量的显示与设置:echo,unsetecho:显示一段文字,也可以读出变量内容并打印出来格式echo $变量或者echo ${变量}语法:echo [-neE][字符串]或 echo [- ...
javascript中的变量作用域以及变量提升
在javascript中, 理解变量的作用域以及变量提升是非常有必要的.这个看起来是否很简单,但其实并不是你想的那样,还要一些重要的细节你需要理解. 变量作用域 “一个变量的作用域表示这个变量存在的上 ...
if [ "$变量1"x = "$变量2"x ]中x的含义
问题:if [ "$变量1"x = "$变量2"x ]中x的含义是? 答:“x”字符可以为任意字符,用于防止变量为空时,某些版本的bash中会产生错误: 在一个 ...
SQL*Plus中替换变量与定义变量
替换变量 SQL*Plus中的替换变量又叫替代变量,它一般用来临时存储相关数据:在SQL语句之间传递值.一般使用&或&&前缀来指定替换变量. 关于使用替换变量,一般是利用其创建 ...

随机推荐

六：大数据架构 - Flink + AI
Flink 在AI 中的价值其实和大数据Lambda架构中流批统一这两个概念有关系,Flink为大数据实时化带来的价值也将同样使AI受益大数据的发展过程从Google奠基性的"三架马车& ...
.NET有哪些好用的定时任务调度框架
前言定时任务调度的相关业务在日常工作开发中是一个十分常见的需求,经常有小伙伴们在技术群提问:有什么好用的定时任务调度框架推荐的?今天大姚给大家分享5个.NET开源.简单.易用.免费的任务调度框架,帮 ...
.NET 缓存：内存缓存 IMemoryCache、分布式缓存 IDistributedCache（Redis）
.NET缓存里分了几类,主要学习内存缓存.分布式缓存一.内存缓存 IMemoryCache 1.Program注入缓存 builder.Services.AddMemoryCache(); 2.相关 ...
逆向wechat
本篇博客园地址https://www.cnblogs.com/bbqzsl/p/18171552 计划来个wechat的逆向系列,包括主程序WeChat,以及小程序RadiumWMPF. 开篇,对We ...
小程序 image 高度自适应及裁剪问题
在做微信小程序的商品详情页,商品的详情是图片集合,渲染完成后发现图片加载的很不自然,后来我把样式设置宽度 100%,并对 image 组件添加属性 mode="widthFix"解 ...
Chrome 浏览器插件 Manifest.json V3 中权限（Permissions）字段解析
一.权限(Permissions) 再使用拓展程序的 API 时,大多数的时候,需要在 manifest.json 文件中声明 permissions 字段. 一.权限类型在 V3 版本中可以声明以 ...
AIRIOT答疑第5期|如何使用低代码业务流引擎？
推拉拽! AIRIOT平台业务流引擎可创建丰富的业务流程,实现从流程定义.数据处理.任务工单.消息通知.日志追踪的闭环流转.多类型节点任意组合,可视化流程日志,精准追踪流程流转.人工任务统一管理,审批 ...
selenium 滚动截图参考
Selenium本身并不直接支持滚动截图,但是你可以通过编程方式实现滚动截图.下面是一个Python的例子,使用Selenium和PIL库实现滚动截图: from selenium import we ...
vmware迁移虚拟机
迁移 1.打开"VMware",点击"虚拟机详细信息"可以看到虚拟机的储存路径. 2. 按照储存路径找到虚拟机文件位置,将整个虚拟机文件复制,粘贴到需要转移的路 ...
kubernets之pod的生命周期容器启动后钩子以及容器结束前钩子
一先来介绍容器启动后钩子 1.1 容器启动后钩子,并不是容器启动之后才会执行的操作,而是在容器启动过程中,异步的和容器进行启动的一种钩子它有2种表现形式,包括我们后面提到的容器结束前钩子一样在一 ...

spark共享变量---广播变量和累加变量

Spark踩坑记：共享变量

spark共享变量---广播变量和累加变量的更多相关文章

随机推荐

热门专题