版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80650309

闭包的概念例如以下图:

在spark应用里,变量及函数的作用范围和声明周期在spark的集群运行模式下是比較难理解的。尤其是对刚開始学习的人来说。

RDD的操作。要改动其作用范围的变量。常常会出点叉子。以下。能够举个用foreach,改动一个计数器的样例。

样例

求和RDD元素的样例,该样例会依据该段代码是否运行在同一个jvm里面有不同的输出结果,比方local模式,运行于同一个jvm。输出是15。cluster模式运行于不同jvm输出是0。

val data = Array(1, 2, 3, 4, 5)

var counter =0

var rdd = sc.parallelize(data)

// Wrong: Don't do this!!

rdd.foreach(x => counter += x)

println("Counter value: "+ counter)

本地或集群模式

上述代码的行为是未定义的,而且不同模式下运行情况不同。为了运行作业。Spark将RDD操作的处理分解为tasks,每一个task由Executor运行。在运行之前,Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法(在这样的情况下是foreach())。

闭包会被序列化并发送给每一个Executor。

发送给每一个Executor的闭包中的变量是副本,因此。当foreach函数内引用计数器时。它不再是driver节点上的计数器。driver节点的内存中仍有一个计数器,但该变量是Executor不可见的。运行者仅仅能看到序列化闭包的副本。因此。计数器的终于值仍然为零,由于计数器上的全部操作都引用了序列化闭包内的值。

在本地模式下,在某些情况下,该foreach函数实际上将在与driver同样的JVM内运行,而且会引用同样的原始计数器,并可能实际更新它。

为了确保在这些场景中明白定义的行为,应该使用一个Accumulator。

Spark中的累加器专门用于提供一种机制。用于在集群中的工作节点之间运行拆分时安全地更新变量。

一般来说。closures - constructs像循环或本地定义的方法,不应该被用来改变一些全局状态。Spark并未定义或保证从闭包外引用的对象的改变行为。这样做的一些代码能够在本地模式下工作。但这仅仅是偶然,而且这样的代码在分布式模式下的行为不会像你想的那样。假设须要某些全局聚合,请改用累加器。

打印RDD的元素

还有一个常见的习惯使用方法是尝试使用rdd.foreach(println)或rdd.map(println)打印出RDD的元素。在单台机器上,这将产生预期的输出并打印全部RDD的元素。可是,在cluster模式下,由Executor运行输出写入的是Executor的stdout,而不是driver上的那个stdout,所以driver的stdout不会显示这些!要在driver中打印全部元素,能够使用该collect()方法首先将RDD数据带到driver节点:rdd.collect().foreach(println)。但这可能会导致driver程序内存不足,由于collect()会将整个RDD数据提取到driver端; 假设您仅仅须要打印RDD的一些元素,则更安全的方法是使用take():rdd.take(100).foreach(println)。

理解Spark里的闭包的更多相关文章

  1. 深入理解javascript原型和闭包(8)——简述【执行上下文】上

    什么是“执行上下文”(也叫做“执行上下文环境”)?暂且不下定义,先看一段代码: 第一句报错,a未定义,很正常.第二句.第三句输出都是undefined,说明浏览器在执行console.log(a)时, ...

  2. 《深入理解Spark:核心思想与源码分析》(前言及第1章)

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  3. 《深入理解Spark:核心思想与源码分析》一书正式出版上市

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  4. 《深入理解Spark:核心思想与源码分析》正式出版上市

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  5. 《深入理解javascript原型和闭包系列》 知识点整理(转)

    深入理解javascript原型和闭包系列 对原型和闭包等相关知识的讲解,由浅入深,通俗易懂,每个字都值得细细研究. 一.一切都是对象 1. typeof操作符输出6种类型:string boolea ...

  6. 《深入理解javascript原型和闭包系列》 知识点整理

    深入理解javascript原型和闭包系列 对原型和闭包等相关知识的讲解,由浅入深,通俗易懂,每个字都值得细细研究. 一.一切都是对象 1. typeof操作符输出6种类型:string boolea ...

  7. 如何才能通俗易懂的解释javascript里面的"闭包"?

    看了知乎上的话题 如何才能通俗易懂的解释javascript里面的‘闭包’?,受到一些启发,因此结合实例将回答中几个精要的答案做一个简单的分析以便加深理解. 1. "闭包就是跨作用域访问变量 ...

  8. Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)

    很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行. 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等. 这是为什 ...

  9. 【学习笔记】深入理解js原型和闭包(8)——简述【执行上下文】上

    什么是“执行上下文”(也叫做“执行上下文环境”)?暂且不下定义,先看一段代码: 第一句报错,a未定义,很正常.第二句.第三句输出都是undefined,说明浏览器在执行console.log(a)时, ...

随机推荐

  1. linux 斜杠/

    inux OS: 使用”/“   例子:/home/user/XXX 特例:路径中某目录名包含空格,在命令行中使用cd等命令书写路径时,则要在空格前加”\“ 例子: 主目录(/home/student ...

  2. DapperExtensions and Dapper.Contrib在表构架不是默认dbo时的处理 DapperExtensions and Dapper.Contrib with non-dbo Schema

    什么是数据库的Schema dbo是一个构架(schema),与sql2000不同的是,在sql2005中,表的调用格式如下:"数据库名.构架名.表名",同一个用户可以被授权访问多 ...

  3. duilib进阶教程 -- Container控件 (3)

    前面两个教程的目的是教大家与MFC结合,那么从这篇起,将不再使用MFC,而使用纯win32项目,本文的所有知识已经在<duilib入门教程>里面讲过了,因此基础知识不再赘述. 代码下载:h ...

  4. [IR] Dictionary Coding

    [数据压缩]LZ77算法原理及实现 [数据压缩]LZ78算法原理及实现 Lempel–Ziv–Welch 年发表的论文<A Universal Algorithm for Sequential ...

  5. Ajax简单整理-思维导图

    图片和mmap下载地址:http://pan.baidu.com/s/1jGqUpxk

  6. SpringBoot Druid整合,SpringBoot 集成Druid

    SpringBoot Druid整合,SpringBoot 集成Druid ================================ ©Copyright 蕃薯耀 2018年4月8日 http ...

  7. Markdown 表格

    表格的基本写法很简单,就跟表格的形状很相似,冒号在左边表示左对齐,右边表示右对齐,两边都有表示居中,如果都不写冒号则默认左对齐 学号|姓名|分数 :-|:-:|-: 小明|男|75 小红|女|79 小 ...

  8. mysql中将查询结果进行拼接处理及concat、group_concat的使用

    说明: 本文中使用的例子均在下面的数据库表tt2下执行: 一.concat()函数1.功能:将多个字符串连接成一个字符串. 2.语法:concat(str1, str2,...) 返回结果为连接参数产 ...

  9. 《Thinkphp5使用Socket服务》 入门篇

    上车啦!!! 今天来说一下thinkphp5.0下使用wokerman的socket服务. 安装: composer的安装方法,Windows下直接下个composer的应用程序,双击安装,环境变量同 ...

  10. Flask web开发之路十一

    首先写一下cookie和session的概念,然后是Flask中session的工作机制以及操作session ### cookie: 1. `cookie`出现的原因:在网站中,http请求是无状态 ...