转载自:http://www.jianshu.com/p/082ef79c63c1

broadcast


官方文档描述:


  1. Broadcast a read-only variable to the cluster, returning a
  2. [[org.apache.spark.broadcast.Broadcast]] object for reading it in distributed functions.
  3. The variable will be sent to each cluster only once.

函数原型:


  1. def broadcast[T](value: T): Broadcast[T]

广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据,或者以反序列化形式缓存数据是十分重要的时候,显式地创建广播变量才有用。

源码分析:


  1. def broadcast[T: ClassTag](value: T): Broadcast[T] = {
  2. assertNotStopped()
  3. if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) {
  4. // This is a warning instead of an exception in order to avoid breaking user programs that
  5. // might have created RDD broadcast variables but not used them:
  6. logWarning("Can not directly broadcast RDDs; instead, call collect() and "
  7. + "broadcast the result (see SPARK-5063)")
  8. }
  9. val bc = env.broadcastManager.newBroadcast[T](value, isLocal)
  10. val callSite = getCallSite
  11. logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)
  12. cleaner.foreach(_.registerBroadcastForCleanup(bc))
  13. bc
  14. }

实例:


  1. List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
  2. JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);
  3. final Broadcast<List<Integer>> broadcast = javaSparkContext.broadcast(data);
  4. JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {
  5. List<Integer> iList = broadcast.value();
  6. @Override
  7. public Integer call(Integer v1) throws Exception {
  8. Integer isum = 0;
  9. for(Integer i : iList)
  10. isum += i;
  11. return v1 + isum;
  12. }
  13. });
  14. System.out.println(result.collect());

accumulator


官方文档描述:


  1. Create an [[org.apache.spark.Accumulator]] variable of a given type, which tasks can "add"
  2. values to using the `add` method. Only the master can access the accumulator's `value`.

函数原型:


  1. def accumulator[T](initialValue: T, accumulatorParam: AccumulatorParam[T]): Accumulator[T]
  2. def accumulator[T](initialValue: T, name: String, accumulatorParam: AccumulatorParam[T])
  3. : Accumulator[T]

累加器是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和sum。Spark原生地只支持数字类型的累加器,开发者可以添加新类型的支持。如果创建累加器时指定了名字,可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程(对于Python还不支持) 。
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是,它们不能读取它的值。只有驱动程序能够读取它的值,通过累加器的value方法。

源码分析:


  1. def accumulator[T](initialValue: T, name: String)(implicit param: AccumulatorParam[T])
  2. : Accumulator[T] = {
  3. val acc = new Accumulator(initialValue, param, Some(name))
  4. cleaner.foreach(_.registerAccumulatorForCleanup(acc))
  5. acc
  6. }

实例:


  1. class VectorAccumulatorParam implements AccumulatorParam<Vector> {
  2. @Override
  3. //合并两个累加器的值。
  4. //参数r1是一个累加数据集合
  5. //参数r2是另一个累加数据集合
  6. public Vector addInPlace(Vector r1, Vector r2) {
  7. r1.addAll(r2);
  8. return r1;
  9. }
  10. @Override
  11. //初始值
  12. public Vector zero(Vector initialValue) {
  13. return initialValue;
  14. }
  15. @Override
  16. //添加额外的数据到累加值中
  17. //参数t1是当前累加器的值
  18. //参数t2是被添加到累加器的值
  19. public Vector addAccumulator(Vector t1, Vector t2) {
  20. t1.addAll(t2);
  21. return t1;
  22. }
  23. }
  24. List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
  25. JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);
  26. final Accumulator<Integer> accumulator = javaSparkContext.accumulator(0);
  27. Vector initialValue = new Vector();
  28. for(int i=6;i<9;i++)
  29. initialValue.add(i);
  30. //自定义累加器
  31. final Accumulator accumulator1 = javaSparkContext.accumulator(initialValue,new VectorAccumulatorParam());
  32. JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {
  33. @Override
  34. public Integer call(Integer v1) throws Exception {
  35. accumulator.add(1);
  36. Vector term = new Vector();
  37. term.add(v1);
  38. accumulator1.add(term);
  39. return v1;
  40. }
  41. });
  42. System.out.println(result.collect());
  43. System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator.value());
  44. System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator1.value());
 

【Spark Java API】broadcast、accumulator的更多相关文章

  1. 【Spark调优】Broadcast广播变量

    [业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...

  2. HBase【操作Java api】

    一.导入依赖 创建模块,导入以下依赖,maven默认编译版本是1.5,用1.8编译. pom.xml <dependencies> <dependency> <group ...

  3. 【Spark调优】提交job资源参数调优

    [场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...

  4. 【Spark调优】数据倾斜及排查

    [数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...

  5. 【高德地图API】从零开始学高德JS API(二)地图控件与插件——测距、圆形编辑器、鼠标工具、地图类型切换、鹰眼鱼骨

    原文:[高德地图API]从零开始学高德JS API(二)地图控件与插件——测距.圆形编辑器.鼠标工具.地图类型切换.鹰眼鱼骨 摘要:无论是控件还是插件,都是在一级API接口的基础上,进行二次开发,封装 ...

  6. 【百度地图API】如何用圆形搜索获取中心点周围100米内全部关键点?如天安门附近所有的餐厅、加油站、宾馆、大厦等

    原文:[百度地图API]如何用圆形搜索获取中心点周围100米内全部关键点?如天安门附近所有的餐厅.加油站.宾馆.大厦等 摘要: 在LBS上有这样一个常用的功能,查找附近所有的关键点(POI点,比如标志 ...

  7. 【Java基础】11、java方法中只有值传递,没有引用传递

    public class Example { String testString = new String("good"); char[] testCharArray = {'a' ...

  8. 【Java基础】4、java中的内部类

    内部类的分类:常规内部类.静态内部类.私有内部类.局部内部类.匿名内部类. 实例1:常规内部类 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 ...

  9. 【Spark调优】Kryo序列化

    [Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...

随机推荐

  1. angular5 自定义指令 输入输出 @Input @Output(右键点击事件传递)

    指令写法,angular5官网文档给的很详细. 首先要创建一个文件,需注意命名规范(后缀名为xxx.directive.ts): 今天要记录的是在多个li中,右键点击之后显示出对应的菜单,直接上图吧! ...

  2. 实现在当前的日期上加N天

    function getNewDay(dateTemp, days) { var dateTemp = dateTemp.split("-"); var nDate = new D ...

  3. 实验楼 Linux 基础入门(新版)挑战:寻找文件

    传送门:https://www.shiyanlou.com/courses/running 挑战:寻找文件 实验环境: 用户名:shiyanlou 密码:76036575 寻找文件 介绍 有一个非常重 ...

  4. PHP实现二叉树的深度优先遍历(前序、中序、后序)和广度优先遍历(层次)

    前言: 深度优先遍历:对每一个可能的分支路径深入到不能再深入为止,而且每个结点只能访问一次.要特别注意的是,二叉树的深度优先遍历比较特殊,可以细分为先序遍历.中序遍历.后序遍历.具体说明如下: 前序遍 ...

  5. jquery使用ajax提交form表单

    $.ajax({ type: jqform.attr('method'), // 提交方式 get/post url: jqform.attr('action'), // 需要提交的 url data ...

  6. JSON JAVA 总结

    1.如下是我所用json第三方jar包的maven坐标 <!--可引用的jar--> <dependency> <groupId>net.sf.json-lib&l ...

  7. php 中使用正则

    1.匹配一个由一个小写字母和一位数字组成的字符串,比如”z2″   用^[a-z][0-9]$ 2.当在一组方括号里使用^是,它表示“非”或“排除”的意思   比如要求第一个字符不能是数字:^[^0- ...

  8. LSOF查看linux中文件打开情况

    如何查看linux中文件打开情况 前言 我们都知道,在linux下,“一切皆文件”,因此有时候查看文件的打开情况,就显得格外重要,而这里有一个命令能够在这件事上很好的帮助我们-它就是lsof. lin ...

  9. Linux安装模式AppImage,Flatpak,Snap整理

    本文只谈Linux世界用户较多的前2大主要分支, RedHat Red Hat Enterprise Linux 简称RHEL rpm (RedHat, CentOS, Fedora, Oracle. ...

  10. URL编码表(收集到的,为了方便查看)

    URL编码表