Spark1.0.0 编程模型

Spark Application能够在集群中并行执行，其关键是抽象出RDD的概念（详见RDD
细解），也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYm9va19tbWlja3k=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

1：Spark应用程序的结构

Spark应用程序可分两部分：driver部分和executor部分初始化SparkContext和主体程序

A：driver部分

driver部分主要是对SparkContext进行配置、初始化以及关闭。初始化SparkContext是为了构建Spark应用程序的执行环境，在初始化SparkContext，要先导入一些Spark的类和隐式转换；在executor部分执行完成后，须要将SparkContext关闭。driver部分的基本代码框架例如以下：

package week2

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.SparkContext._

object WordCount1 {

  def main(args: Array[String]) {

    if (args.length == 0) {

      System.err.println("Usage: bin/spark-submit [options] --class week2.WordCount1 WordCount.jar <file1> ")

      System.exit(1)

    }

    val conf = new SparkConf().setAppName("WordCount1")

    val sc = new SparkContext(conf)

    。。。

//executor部分

    sc.stop()

  }

}

要注意的是，Spark1.0.0因为採用了spark-submit统一的应用程序提交工具，代码上有所改变：

不须要在代码里将应用程序本身通过addJars上传给资源管理器
添加了history server，须要在代码末尾关闭SparkContext，才干将完整的执行信息公布到history server。

B：executor部分

Spark应用程序的executor部分是对数据的处理，数据分三种：

原生数据，包括输入的数据和输出的数据
- 对于输入原生数据，Spark眼下提供了两种：
  - scala集合数据集，如Array(1,2,3,4,5)，Spark使用parallelize方法转换成RDD。
  - hadoop数据集，Spark支持存储在hadoop上的文件和hadoop支持的其它文件系统，如本地文件、HBase、SequenceFile和Hadoop的输入格式。比如Spark使用txtFile方法能够将本地文件或HDFS文件转换成RDD。
- 对于输出数据，Spark除了支持以上两种数据。还支持scala标量
  - 生成Scala标量数据，如count（返回RDD中元素的个数）、reduce、fold/aggregate；返回几个标量，如take（返回前几个元素）。
  - 生成Scala集合数据集，如collect（把RDD中的全部元素倒入 Scala集合类型）、lookup（查找相应key的全部值）。
  - 生成hadoop数据集，如saveAsTextFile、saveAsSequenceFile
RDD。Spark进行并行运算的基本单位。其细节參见RDD 细解。

RDD提供了四种算子：
- 输入算子。将原生数据转换成RDD，如parallelize、txtFile等
- 转换算子，最基本的算子，是Spark生成DAG图的对象。转换算子并不马上运行，在触发行动算子后再提交给driver处理。生成DAG图 --> Stage --> Task --> Worker运行。按转化算子在DAG图中作用。能够分成两种：
  - 窄依赖算子
    - 输入输出一对一的算子，且结果RDD的分区结构不变。主要是map、flatMap。
    - 输入输出一对一，但结果RDD的分区结构发生了变化。如union、coalesce；
    - 从输入中选择部分元素的算子，如filter、distinct、subtract、sample。
  - 宽依赖算子，宽依赖会涉及shuffle类，在DAG图解析时以此为边界产生Stage。如图所看到的。
    - 对单个RDD基于key进行重组和reduce，如groupByKey、reduceByKey。
    - 对两个RDD基于key进行join和重组。如join、cogroup。
- 缓存算子。对于要多次使用的RDD，能够缓冲加快执行速度，对关键数据能够採用多备份缓存。
- 行动算子，将运算结果RDD转换成原生数据，如count、reduce、collect、saveAsTextFile等。
共享变量。在Spark执行时，一个函数传递给RDD内的patition操作时。该函数所用到的变量在每一个运算节点上都复制并维护了一份，而且各个节点之间不会相互影响。

可是在Spark Application中。可能须要共享一些变量，提供Task或驱动程序使用。Spark提供了两种共享变量：
- 广播变量，能够缓存到各个节点的共享变量，通常为仅仅读，用法：

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

scala> broadcastVar.value

累计器。仅仅支持加法操作的变量，能够实现计数器和变量求和。用户能够调用SparkContext.accumulator(v)创建一个初始值为v的累加器。而执行在集群上的Task能够使用“+=”操作。但这些任务却不能读取；仅仅有驱动程序才干获取累加器的值。

用法：

cala> val accum = sc.accumulator(0)

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

2：例程示范

以下拿一个简单的样例WorCount来演示样例：

3：Spark应用程序的多语言编程

Spark提供了Scala、Python、Java开发API。

用户能够依据自己的喜好选择对应的编程语言和工具。

建议使用Scala和IntelliJ IDEA开发。

关于多语言开发能够參考：Spark1.0.0 多语言编程

关于Spark应用程序的部署能够參考：Spark1.0.0 应用程序部署工具spark-submit

关于Spark应用程序的执行架构能够參考：Spark1.0.0 执行架构基本概念

Spark1.0.0 编程模型的更多相关文章

at91sam9x5 linux 4.1.0下dts驱动编程模型
测试环境: CPU: AT91SAM9X35 Linux: Atmel提供的linux-at91-linux4sam_5.3 (Linux-4.1.0) 转载请注明: 凌云物网智科嵌入式实 ...
Spark1.0.0新特性
Spark1.0.0 release于2014-05-30日正式公布,标志Spark正式进入1.X的时代.Spark1.0.0带来了各种新的特性,并提供了更好的API支持:Spark1 ...
Spark1.0.0 学习路径
2014-05-30 Spark1.0.0 Relaease 经过11次RC后最终公布.尽管还有不少bug,还是非常令人振奋. 作为一个骨灰级的老IT,经过非常成一段时间的消沉,再次被点燃 ...
Apache Spark1.1.0部署与开发环境搭建
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...
Spark1.0.0 生态圈一览
Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集 ...
Spark1.0.0 学习路线指导
转自:http://www.aboutyun.com/thread-8421-1-1.html 问题导读1.什么是spark?2.spark编程模型是什么?3.spark运维需要具有什么知识?4.sp ...
C#与C++的发展历程第三 - C#5.0异步编程巅峰
系列文章目录 1. C#与C++的发展历程第一 - 由C#3.0起 2. C#与C++的发展历程第二 - C#4.0再接再厉 3. C#与C++的发展历程第三 - C#5.0异步编程的巅峰 C#5.0 ...
C# 6 与 .NET Core 1.0 高级编程 - 38 章实体框架核心（上）
译文,个人原创,转载请注明出处(C# 6 与 .NET Core 1.0 高级编程 - 38 章实体框架核心(上)),不对的地方欢迎指出与交流. 章节出自<Professional C# 6 ...
C# 6 与 .NET Core 1.0 高级编程 - 40 ASP.NET Core（上）
译文,个人原创,转载请注明出处(C# 6 与 .NET Core 1.0 高级编程 - 40 章 ASP.NET Core(上)),不对的地方欢迎指出与交流. 章节出自<Professiona ...

随机推荐

git error: unable to write file xxx，git fatal: unable to write new index file
执行git checkout -- . error: unable to write file mobile/manifest.jsonfatal: unable to write new index ...
canvas的基础使用。
目录: 创建canvas. 绘制直线.多边形和七巧板. 绘制弧和圆. (有些图过于宽,被挤压了.可以去相册[canvas用到的图.]看原图.) 创建canvas. HTML5的新标签<canva ...
带你入门代理模式/SpringAop的运行机制
SpringAop 是spring框架中最重要的一项功能之一,同时也是企业级开发记录事物日志等不可或缺的一部分,如果说你的系统需要记录用户访问接口的操作,那SpringAop是很完美的了,当然,拦截器 ...
3.shell位置参数变量
当我们执行一个shell脚本时,希望可以获取命令行里的参数信息,就可以使用位置参数变量.比如 sh ./a.sh 100 200,就是一个执行shell的命令行,可以在a.sh脚本中获取到参数信息语 ...
selenium+python自动化79-文件下载（SendKeys）【转载】
前言文件下载时候会弹出一个下载选项框,这个弹框是定位不到的,有些元素注定定位不到也没关系,就当没有鼠标,我们可以通过键盘的快捷键完成操作. SendKeys库是专业的处理键盘事件的,所以这里需要用S ...
hdu 5747(数学,贪心)
Aaronson Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Total ...
php发送http请求的两种常用方法
第一种:使用CURL,直接上代码,开箱即用: <?php // return file_get_contents("http://thinkphp.com/index/index/cr ...
形态学函数cvMorphologyEx
OpenCV提供了通用的形态学函数cvMorphologyEx,该函数能够实现开运算,闭运算,形态梯度,礼帽操作,黑帽操作接口形式编辑 void cvMorphologyEx(const CvAr ...
CF 996B World Cup 【找规律/模拟】
CF [题意]:圆形球场有n个门,Allen想要进去看比赛.Allen采取以下方案进入球场:开始Allen站在第一个门,如果当前门前面有人Allen会花费单位时间走到下一个门,如果没人Allen从这个 ...
HDU3414 Tour Route(竞赛图寻找哈密顿回路)
链接:http://acm.hdu.edu.cn/showproblem.php?pid=3414 本文链接:http://www.cnblogs.com/Ash-ly/p/5459540.html ...

Spark1.0.0 编程模型

Spark1.0.0 编程模型的更多相关文章

随机推荐

热门专题