[spark]spark 编程教程

参考：

英文：https://spark.apache.org/docs/latest/programming-guide.html

中文：http://www.cnblogs.com/lujinhong2/p/4651025.html 1.2.1版本的

（一）快速入门

老规矩，先看一个简单示例，有个认识。这个示例来自官方example的SparkPi：

package org.lujinhong.demo.spark

/*

 * 官方的sparkPi示例

 */

import scala.math.random

import org.apache.spark._

/** Computes an approximation to pi */

object SparkPi {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("Spark Pi").setMaster("local")

    val spark = new SparkContext(conf)

    val slices = if (args.length > 0) args(0).toInt else 2

    val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow

    val count = spark.parallelize(1 until n, slices).map { i =>

      val x = random * 2 - 1

      val y = random * 2 - 1

      if (x*x + y*y < 1) 1 else 0

    }.reduce(_ + _)

    println("Pi is roughly " + 4.0 * count / n)

    spark.stop()

  }

}

注意以上的setMaster(“local”)是自己加上去的，方便直接在本地运行。如果在集群上运行，则通过spark-submit的—master参数指定。

写好代码后，就可以直接在eclipse中右键—>运行了。

（二）理论介绍

1、spark中的所有操作都与RDD相关，包括创建RDD，transformation（将RDD转换为另一个RDD)和action（触发RDD的计算，以及输出等）。

In Spark all work is expressed as either creating new RDDs, transforming existing RDDs, or calling operations on RDDs to compute a result.

2、RDD是一个不可变的分布式对象集合，每个RDD会被分成多个分区，它们分别在不同的机器上被计算。它可以是任何的python/java/scala对象，包括你自己创建的对象。

注意RDD是不可变的，因此若需要改变现有RDD的内容，只能通过创建一个新的RDD来实现，这也是transformation的作用。

RDD是一个集合，因此可以通过一些迭代方法对内容进行处理

3、RDD操作类型：对RDD的操作可以分为2种类型

（1）Transformation: 将一个RDD转化为另一个RDD，如map, filter等操作

（2）Action：返回计算结果给driver，写入存储等操作。

最明显的区别：transformation返回一个RDD, action返回其它数据类型

（三）Spark应用的主要4个工作流程如下：

1、create: 通过读取外部数据源来创建RDD。（虽然说也可以将list/set等转化为RDD，但实际上这对于处理大数据没什么作用，一般只用作demo）

2、transformation: 将RDD将化为另一个RDD，如filter()等。

3、cache：将RDD缓存下来，方便之后再使用，如persitst()等。

4、action: 执行真正的工作，计算结果并输出，如count(),first()等。

几个注意点

1、创建RDD有2种方法：

（1）从外部数据集中创建，如从文件，socket，kafka, flume等数据源

（2）将list/set等集合转化为RDD。scala> val lines = sc.parallelize(List("apple","pear"));

2、执行transformation只定义了操作，spark执行的是懒计算原则，即transformation不会触发真正的计算，而是等到第一个action出现时才开始真正的计算。这对于大数据量时成为重要。如读取一份大文件时，若马上将其读入内存，会占用大量的内存空间，而有可能过很长时间也会开始计算。另一方面，如果只是执行first()类似的计算，这个文件完全没必要全部读入内存，而是只读取到第一行就可以了。

3、默认情况下，对于每一个action，spark会重新计算它用到的RDD，若一个RDD会被之后的多个action用到，可以将其缓存到内存（当作也可以到磁盘等），如读取一个文件后，先经过filter，过滤出只包括”spark”的行，此时可以将这个RDD保存到内存中，再分别计算它的count()，first()等操作。

cache() is the same as calling persist() with the default storage level.

4、action会触发真正的计算。

看一个示例：

$ bin/spark-shell

（1）创建RDD

scala> val fileContent = sc.textFile("file:///home/hadoop/spark/README.md”)

（2）过滤RDD

scala> val pythonLine = fileContent.filter(line => line.contains("spark”))

（3）计算行数

scala> pythonLine.count

最后的输出如下：

15/07/21 11:20:43 INFO scheduler.DAGScheduler: Job 2 finished: count at <console>:26, took 1.495956 s

res5: Long = 11

可以看出使用了1.5秒左右。

（4）我们试一下缓存后再计算

scala> pythonLine.cache()

scala> pythonLine.count

15/07/21 11:22:18 INFO scheduler.DAGScheduler: Job 3 finished: count at <console>:26, took 0.123537 s

res7: Long = 11

只使用了0.12秒

（5）继续执行其它action

scala> pythonLine.first()

。。。。。

[spark]spark 编程教程的更多相关文章

Spark Graphx编程指南
问题导读1.GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图?2.PageRank算法在图中发挥什么作用?3.三角形计数算法的作用是什么?Spark中文手册-编程指南Spark之一个快 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
实验5 Spark SQL编程初级实践
今天做实验[Spark SQL 编程初级实践],虽然网上有答案,但都是用scala语言写的,于是我用java语言重写实现一下. 1 ．Spark SQL 基本操作将下列 JSON 格式数据复制到 Li ...
Spark Streaming编程示例
近期也有开始研究使用spark streaming来实现流式处理.本文以流式计算word count为例,简单描述如何进行spark streaming编程. 1. 依赖的jar包参考<分别用 ...
<译>Spark Sreaming 编程指南
Spark Streaming 编程指南 Overview A Quick Example Basic Concepts Linking Initializing StreamingContext D ...
03、IDEA下Spark API编程
03.IDEA下Spark API编程 3.1 编程实现Word Count 3.1.1 创建Scala模块 3.1.2 添加maven支持,并引入spark依赖 <?xml version=& ...
Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
实验 5 Spark SQL 编程初级实践
实验 5 Spark SQL 编程初级实践参考厦门大学林子雨 1． Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...

随机推荐

Codefroces Educational Round 26 837 D. Round Subset
D. Round Subset time limit per test 2 seconds memory limit per test 256 megabytes input standard inp ...
JeeSite信息化快速开发平台
平台简介 JeeSite是基于多个优秀的开源项目,高度整合封装而成的高效,高性能,强安全性的开源Java EE快速开发平台. JeeSite是您快速完成项目的最佳基础平台解决方案,JeeSite是您 ...
使用Java语言开发微信公众平台(六)——获取access_token
在前四期的文章中,我们分别学习了“环境搭建与开发接入”.“文本消息的接收与响应”.“被关注回复与关键词回复”.“图文消息的发送与响应”等环节.那么,从本篇博文开始,我们将进去更高级的 ...
洛谷——P1137 旅行计划
https://www.luogu.org/problem/show?pid=1137 题目描述小明要去一个国家旅游.这个国家有N个城市,编号为1-N,并且有M条道路连接着,小明准备从其中一个城市出 ...
思科模拟器之路由器-RIP-DNS解析server
思科三层交换机之下的局域网搭建,请看这. 接下来将解说怎样通过路由器的RIP协议来连接多个局域网. 并设置DNSserver. 1.路由器RIP配置 RIP协议有个非常致命的缺点:就是它是依据路径长短 ...
Android广告轮播图实现
先看效果第一步,布局 <?xml version="1.0" encoding="utf-8"?> <RelativeLayout xmln ...
33.Node.js 文件系统fs
转自:http://www.runoob.com/nodejs/nodejs-module-system.html Node.js 提供一组类似 UNIX(POSIX)标准的文件操作API. Node ...
Python之字符串切片
切片操作(slice)可以从一个字符串中获取子字符串(字符串的一部分).我们使用一对方括号.起始偏移量start.终止偏移量end 以及可选的步长step 来定义一个分片. 格式: [start:en ...
洛谷 P1054 等价表达式
洛谷 P1054 等价表达式题目描述明明进了中学之后,学到了代数表达式.有一天,他碰到一个很麻烦的选择题.这个题目的题干中首先给出了一个代数表达式,然后列出了若干选项,每个选项也是一个代数表达式, ...
Linux下读写寄存器
arm裸机下读写寄存器很容易,各个寄存器和内存的地址是单一地址空间,他们是用相同的指令进行读写操作的.而在linux下就要复杂很多,因为linux支持多个体系架构的CPU.比如arm和x86就不一样, ...

[spark]spark 编程教程

[spark]spark 编程教程的更多相关文章

随机推荐

热门专题