5 pyspark学习---Broadcast&Accumulator&sparkConf

1 对于并行处理，Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时，集群中的每个节点上都有一个共享变量的副本，这样就可以用于执行任务了。

2 两种支持得类型

(1)Broadcast

广播变量保存所有节点数据备份。该变量缓存在所有机器上，而不是在有任务的机器上发送。下面的代码块包含了PySpark的广播类的详细信息

 from pyspark import SparkContext, SparkConf

 sc = SparkContext()

 words_new = sc.broadcast(['scala','java','hadoop'])

 data = words_new.value

 print 'stored data->%s'%(data)

 elem=words_new.value[2]

 print 'priting a particular element in rdd-》%s'%(elem)

(2)Accumulator

累加器变量用于通过结合和交换操作来聚合信息。例如，您可以使用累加器来进行sum操作或计数器（在MapReduce中）。下面的代码块包含了PySpark的累加器类的详细信息

 from pyspark import SparkContext

 sc = SparkContext("local", "Accumulator app")

 num = sc.accumulator(10)

 def f(x):

    global num

    num+=x

 rdd = sc.parallelize([20,30,40,50])

 rdd.foreach(f)

 final = num.value

 print "Accumulated value is -> %i" % (final)

3 sparkConf

(1)无论是集群还是单机运行spark运用，需要进行一些参数得设置，这个时候sparkConf就派上用场了。

(2)创建conf以后，同时将会加载spark.*得java系统。这样就可以使用链式编程比如conf.a.b.

(3)常用方法

set(key,value)#设置配置属性

setMaster(Value)#设置主节点URL

setAppName(valle)#设置应用名称

get(key,dafaultvalue=none)#获得配置文件

学习途径:https://www.tutorialspoint.com/pyspark/pyspark_mllib.htm

好了加油哟

5 pyspark学习---Broadcast&Accumulator&sparkConf的更多相关文章

4 pyspark学习---RDD
开始新的东西,其实很多操作在第二篇的时候就有所介绍啦.在这里继续学习一遍加深一下印象. 1关于RDD (1) RDD-----Resilient Distributed Dataset,弹性分布式数据 ...
3 pyspark学习---sparkContext概述
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark.它依然可以通过导入Py4j进行RDDS等操作. 2 sparkContext (1) ...
2 pyspark学习----基本操作
1 spark的python环境部署可以参照上面一篇哟.http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作. # cod ...
Android开发学习—— Broadcast广播接收者
现实中:电台要发布消息,通过广播把消息广播出去,使用收音机,就可以收听广播,得知这条消息.Android中:系统在运行过程中,会产生许多事件,那么某些事件产生时,比如:电量改变.收发短信.拨打电话.屏 ...
Android学习——BroadCast（一）
初识广播 BroadCast即为广播,为安卓四大组件之一,用于在应用程序和Activity间传输信息.一条广播,分为发送和接收两部分,发送方通过Intent存储信息,并进行发送.接收方通过BroadC ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
Android学习——BroadCast（二）
这篇博文介绍有序广播的使用有序广播的发送和普通广播完全相同,只需要更换发送的方式即可 ordered.setOnClickListener(new View.OnClickListener() { ...
pyspark中使用累加器Accumulator统计指标
评价分类模型的性能时需要用到以下四个指标最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 # evaluate model TP = labelAndPreds.f ...

随机推荐

笔记11 export to excel
参考两篇博客:http://blog.csdn.net/zyming0815/article/details/5939104 http://blog.csdn.net/g710710/article/ ...
MGTemplateEngine 模版发动机简单使用
https://github.com/nxtbgthng/MGTemplateEngine MGTemplateEngine 模版引擎 MGTemplateEngine比較象 PHP 中的 Smart ...
python发送邮件相关问题总结
一.发送邮件报错:554:DT:SPM 1.报错信息 2.通过查找163报错信息页面,554 DT:SPM的问题如下: 3.将邮件主题中的“test”去除,经过测试,实际上邮件主题包含“test”也能 ...
Git Xcode配置
本文转载至 http://www.cnblogs.com/imzzk/p/xcode_git.html 感谢作者分享 Git源代码管理工具的出现,使得我们开发人员对于源码的管理更加方便快捷.至于Git ...
EasyDarwin云存储方案调研：海康萤石云采用的是MPEG-PS打包的方式进行的存储
EasyDarwin开源流媒体服务器项目在直播功能稳定和完善之后,开始涉及服务器端存储与回放功能的调研与开发,当然,这里就要研究一下行业标杆萤石云是怎么来做的,我们通过非常复杂的流程将萤石存储的录像文 ...
Red Black Tree java.util.TreeSet
https://docs.oracle.com/javase/9/docs/api/java/util/SortedMap.html public interface SortedMap<K,V ...
cocos2d-js v3事件管理器
总概: 1.时间监听器(cc.EventListener)封装用户的事件处理逻辑. 2.事件管理器(cc.eventManager)管理用户注册的事件监听器. 3.事件对象(cc.Event)包含事件 ...
checkbox 背景图片纯CSS处理办法
CSS .table_container input[type="checkbox"] { background: #fff url(/img/blue.png); backgro ...
jps不显示java进程信息
本来想自己整理,发现已经有前人整理,并且完美解决了我的问题,故转载,感谢分享转自:http://trinea.iteye.com/blog/1196400 对于jps较熟悉可以直接查看第二部分的分析 ...
测试覆盖率Emma工具使用
Emma使用与分析 #什么是Emma EMMA 是一个开源.面向 Java 程序测试覆盖率收集和报告工具.它通过对编译后的 Java 字节码文件进行插装,在测试执行过程中收集覆盖率信息,并通过支持多种 ...

5 pyspark学习---Broadcast&Accumulator&sparkConf

5 pyspark学习---Broadcast&Accumulator&sparkConf的更多相关文章

随机推荐

热门专题