RDD编程下（Spark自学四）

3.5 常见的转化操作和行动操作

　　3.5.1 基本RDD

　　　　1. 针对各个元素的转化操作

　　　　两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数，并将RDD中满足该函数的元素放入新的RDD中返回。

　　　　inputRDD{1，2，3，4} >>>map x=>x*x >>> Mapped RDD{1，4，9，16}

　　　　inputRDD{1，2，3，4} >>>filter x=>x!=1 >>> Filtered RDD{2，3，4}

　　　　例 3-26：Python版计算RDD中各值的平方

nums = sc.parallelize([1,2,3,4])

squared = nums.map(lambda x : x*x)

for num in squared:

    print "%i "%(num)

　　　　例 3-27：Scala版计算RDD中各值的平方

val input = sc.parallelize(List(1,2,3,4))

val result = input.map(x => x*x)

println(result.collect().mkString(","))

　　　　例 3-29： Python中的flatMap（）将行数据切分为单词

>>> lines = sc.parallelize(["hello world","hi"])

>>> words1 = lines.flatMap(lambda line: line.split(" "))

>>> words2 = lines.map(lambda line : line.split(" "))

>>> words1.first()

'hello'

>>> words2.first()

['hello', 'world']

　　　　例 3-30： Scala中的flatMap（）将行数据切分为单词

val lines = sc.parallelize(["hello world", "hi"])

words = lines.flatMap(line=> line.split(" "))

words.first()

　　　　2. 伪集合操作

　　　　RDD支持许多数学上的集合操作，比如合并和相交。注意，这些操作都要求操作的RDD、是相同数据类型的。

　　　　RDD.distinct()生成一个只包含不同元素的新RDD。

　　　　union(other)操作返回一个包含两个RDD中所有元素的RDD。

　　　　intersection（other）方法只返回两个RDD中都有的元素。

　　　　subtract（other）函数接受另一个RDD作为参数，返回一个由只存在于第一个RDD中而不存在第二个RDD中的所有元素组成的RDD。

　　　　cartesian（other）转化操作会返回所有可能的（a，b）对，其中a是源RDD中的元素，b来自另一个RDD。

　　　　3. 行动操作

　　　　例 3-32：Python中的reduce（）

>>> nums = sc.parallelize([1,2,3,4])

>>> sums = nums.reduce(lambda x, y:x + y)

>>> sums

10

　　　　例3-33：Scala中的reduce（）

val sum = rdd.reduce((x, y) => x+y)

　　　　RDD的一些行动操作会以普通集合或者值的形式将RDD的部分或全部数据返回驱动器程序中。

　　　　collect（）操作会将整个RDD的内容返回。

　　　　take（n）返回RDD中的n个元素。

　　　　top（n）从RDD中获取前n个元素。

　　　　foreach（func）对RDD中的每个元素使用给定的函数。

　　　　count（）用来返回元素个数。

　　　　3.5.2 在不同RDD类型间转换

　　　　略

　　3.6 持久化（缓存）

　　　　Spark RDD是惰性求值的，而有时我们希望能多次使用同一个RDD。如果简单的对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。

　　　　例3-39： Scala中的两次执行

val result = input.map(x => x*x)

println(result.count())

println(result.collect().mkString(","))

　　　　为了避免多次计算同一个RDD，可以让Spark对数据进行持久化。当我们让Spark持久化存储一个RDD时，计算出RDD的节点会分别保存它们所求出的分区数据。如果一个有持久化数据的节点发生故障，Spark会在需要用到缓存数据时重算丢失的数据分区。

　　　　例3-40：在Scala中使用persist（）

val result = input.map(x => x*x)

result.persist(StorageLevel.DISK_ONLY)

println(result.count())

println(result.collect().mkString(","))

　　　　注意，persist()调用本身不会引发强制求值。

　　　　RDD还有一个方法叫做unpersist（），调用该方法可以手动把持久化的RDD从缓存中移除。

RDD编程下（Spark自学四）的更多相关文章

02、体验Spark shell下RDD编程
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之 ...
Spark(四)【RDD编程算子】
目录测试准备一.Value类型转换算子 map(func) mapPartitions(func) mapPartitions和map的区别 mapPartitionsWithIndex(func ...
RDD编程上（Spark自学三）
弹性分布式数据集(简称RDD)是Spark对数据的核心抽象.RDD其实就是分布式的元素集合.在Spark中,对数据的操作不外乎创建RDD.转化已有RDD以及调用RDD操作进行求值.而在这一切背后,Sp ...
spark实验(四)--RDD编程(1)
一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台操作系统:centos6.4 Spark 版本:1.5.0 ...
Spark编程模型（RDD编程模型）
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用到的四个算子映射到四种算子类型.spark 程序工作在两个空间中:spark rdd空间和 scala原生数据空间.在原 ...
Spark RDD编程-大数据课设
目录一.实验目的二.实验平台三.实验内容.要求 1．pyspark交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题四.实验过程 (一)pyspark交互式编程 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
【spark 深入学习 05】RDD编程之旅基础篇-01
---------------- 本节内容 1.RDD的工作流程 2.WordCount解说 · shell版本WordCount · java版本WordCount -------------- ...

随机推荐

安全测试===Mysql 注入技巧学习 MySQL注入技巧（1）
默认存在的数据库: mysql 需要root权限读取 information_schema 在5以上的版本中存在测试是否存在注入方法假:表示查询是错误的 (MySQL 报错/返回页面与原来不同) ...
【uva11421】玩纸牌
数学期望. #include<bits/stdc++.h> ; using namespace std; double d[N][N],p; int main(){ ;double p;s ...
golang命令行参数解析
package main import ( "fmt" "os" ) func main(){ s:= os.Args fmt.Println(s) } 直接执 ...
Django的缓存机制和信号量相关
缓存介绍缓存的简介在动态网站中,用户所有的请求,服务器都会去数据库中进行相应的增,删,查,改,渲染模板,执行业务逻辑,最后生成用户看到的页面. 当一个网站的用户访问量很大的时候,每一次的的后台操作 ...
Python 进阶之 enumerate()函数
enumerate()是Python的内置函数,无需依赖包,enumerate()作用是可以将生成器包装成生成器,类似于range,但enumerate()可以自动生成索引. enumerate(pa ...
springboot 通用Mapper使用
https://blog.csdn.net/dwf_android/article/details/79359360 https://www.cnblogs.com/larryzeal/p/58741 ...
nodejs获取ASP.Net WebAPI(IIS Windows验证)
处理了很多天,终于使用Nodejs可以发出请求至WebAPI,能够正常处理数据了首先加入npm包 npm install httpntlm 在app.js中加入代码 var httpntlm = r ...
HDU 2044 一只小蜜蜂（递归）
一只小蜜蜂... Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Su ...
[LOJ#2540][PKUWC2018]随机算法(概率DP)
场上数据很水,比较暴力的做法都可以过90分以上,下面说几个做法. 1. 暴力枚举所有最大独立集,对每个独立集分别DP.复杂度玄学,但是由于最大独立集并不多,所以可以拿90. 2. dp[S][k]表示 ...
【动态规划】Codeforces Round #392 (Div. 2) D. Ability To Convert
D. Ability To Convert time limit per test 1 second memory limit per test 256 megabytes input standar ...

RDD编程 下（Spark自学四）

RDD编程 下（Spark自学四）的更多相关文章

随机推荐

热门专题

RDD编程下（Spark自学四）

RDD编程下（Spark自学四）的更多相关文章