1、RDD基础

Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在分区的不同节点上。

用户可以通过两种方式创建RDD：

（1）读取外部数据集====》 sc.textFile(inputfile)

（2）驱动器程序中对一个集合进行并行化===》sc.parallelize(List(“pandas”,”I like pandas”))

2、RDD操作

转化（Transformations）和行动*（Actions）操作

（1）：转化操作

RDD 经过转化返回一个新的RDD，转化出来的RDD是惰性求值的，只有在行动操作才会进行计算的。

常见的转换操作如下图：

（2）：行动操作

对数据集进行实际的计算，这最终求得的结果返回驱动器程序中，或者写入外部程序中。

下表列出了一些 Spark 常用的 actions 操作

简单worldcount操作实现

object WordCountScala {

    def main(args: Array[String]): Unit = {

        //创建Spark配置对象

        val conf = new SparkConf();

        conf.setAppName("WordCountScala")

        //设置master属性

        //conf.setMaster("local");

        conf.setMaster("local[*]")

        //通过conf创建sc

        val sc = new SparkContext(conf);

        print("hello world");

        //加载文本文件

        val rdd1 = sc.textFile("F:/spark/b.txt");

        //压扁

        val rdd2 = rdd1.flatMap(line => {

          println("map :"+line)

          line.split(" ")

        }) ;

        //映射w => (w,1)

        val rdd3 = rdd2.map(word=>{

          println("map :"+word)

          (word,1)

        })

        val rdd4 = rdd3.reduceByKey(_ + _)

        val r = rdd4.collect()

        r.foreach(println)

    }

}

3、RDD的持久化

因为Spark RDD是惰性求值的，有时候我们希望能够多次使用同一个RDD。如果简单的对RDD调用行动操作，Spark会重算RDD以及它的所有的依赖。造成算法的开销很大。处于不同的目的，我们可以为RDD选择不同的持久化级别。RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算，并缓存在节点的内存中。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。默认的存储级别是 StorageLevel.MEMORY_ONLY（将反序列化的对象存储到内存中），如果您想手动删除 RDD 而不是等待它掉出缓存，使用 RDD.unpersist() 方法。

例如： Scala中的两次执行

val  result=input.map(x=>x*x)

result.persist(StorageLevel.DISK_ONLY)

println(result.count())

println(result.collect().mkString(","))

Spark基础：（二）Spark RDD编程的更多相关文章

大数据入门第二十二天——spark（二）RDD算子（1）
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...
大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性
一.JdbcRDD与关系型数据库交互虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋.但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互.这 ...
【Spark基础】：RDD
我的代码实践:https://github.com/wwcom614/Spark 1.RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式 ...
什么是spark（二） RDD
其实你会发现很多概念都是基于RDD提出来的,比如分区,缓存这些操作的对象其实都是RDD:所以不要讲spark的分区,这其实很不专业,分区其实是属于RDD的概念(只有pair RDD才有分区概念) RD ...
spark(2.2) - spark-shell RDD编程
[基本操作] 1* 从文件系统中加载数据创建RDD -> 本地文件系统 ->HDFS 2* 转换操作 [ 会创建新的RDD ,没有真正计算 ] >> filter() > ...
Spark 基础操作
1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1. ...
spark入门（二）RDD基础操作
1 简述 spark中的RDD是一个分布式的元素集合. 在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...

随机推荐

POJ 2584 T-Shirt Gumbo（二分图最大匹配）
题意: 有五种衣服尺码:S,M,L,X,T N个人,每个人都有一个可以穿的衣服尺码的范围,例:SX,意思是可以穿S,M,L,X的衣服. 给出五种尺码的衣服各有多少件. 如果可以满足所有人的要求,输出 ...
linux 内核源代码情景分析——用户堆栈的扩展
上一节中,我们浏览了一次因越界访问而造成映射失败从而引起进程流产的过程,不过有时候,越界访问时正常的.现在我们就来看看当用户堆栈过小,但是因越界访问而"因祸得福"得以伸展的情景. ...
js实现日期格式化封装-八种格式
封装一个momentTime.js文件,包含8种格式. 需要传两个参数: 时间戳:stamp 格式化的类型:type, 日期补零的方法用到es6语法中的padStart(length,'字符'): 第 ...
Matlab 中 arburg 函数的理解与实际使用方法
1. 理解 1.1 Matlab 帮助: a = arburg(x,p)返回与输入数组x的p阶模型相对应的归一化自回归(AR)参数. 如果x是一个向量,则输出数组a是一个行向量. 如果x是矩阵,则参数 ...
js-arguments 函数参数对象详解
前言 JavaScript 函数参数不同于其他编程语言,既不需要规定参数的类型,也不需要关心参数的个数,因此 JavaScript 因函数参数而变得十分灵活,本文总结一下 arguments 参数对象 ...
RocketMQ源码详解 | Broker篇 · 其三：CommitLog、索引、消费队列
概述上一章中,已经介绍了 Broker 的文件系统的各个层次与部分细节,本章将继续了解在逻辑存储层的三个文件 CommitLog.IndexFile.ConsumerQueue 的一些细节.文章最后 ...
使用silky脚手架构建微服务应用
目录模板简介构建独立应用的模板Silky.App.Template 构建模块化应用的模板Silky.Module.Template 开源地址在线文档模板简介使用 dotnet new 命令可 ...
如何系统学习C 语言（中）之结构体篇
1,结构体在前面我们知道变量和数组都可以用来存储数据,变量用来存储单个数据,数组可以用来存储一组同类型的数据,但你有没有发现--它们都只适合单一属性的数据.那现实生活中,很多对象都是具有多属性的.例 ...
FZU ICPC 2020 寒假训练 4 —— 模拟(二）
P1056 排座椅题目描述上课的时候总会有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情.不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下来之后,只有有限的 D 对同 ...
php简单手机商品发布系统
原本还说学学angular2的,没想到上一公司呆了两月就走了,现在在这个公司做了一个小型的商品发布系统,,php实现的,比较简单,功能不多,是以手机模板发布商品网站的,需要的可以拿去 http://p ...

Spark基础：（二）Spark RDD编程

1、RDD基础

2、RDD操作

3、RDD的持久化

Spark基础：（二）Spark RDD编程的更多相关文章

随机推荐

热门专题