Spark中的RDD操作简介

map(func)

对数据集中的元素逐一处理，变为新的元素，但一个输入元素只能有一个输出元素

scala> pairData.collect()

res6: Array[Int] = Array(1, 2, 3, 4, 5)

scala> val pairData = distData.map(a=>(a,1)).collect()

res2: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1))

flatMap(func)

类似与map，对数据集中的元素逐一处理，变为新的元素，但一个输入元素可以被映射为0或多个输出元素

scala> val file = sc.textFile("/tmp/input")

scala> file.collect()

res11: Array[String] = Array("1 2 3 4 ", test hello world, 123 8997 876, hai bai du) // 每一行为一个元素

scala> file.flatMap(a => a.split(" ")).collect()

res12: Array[String] = Array(1, 2, 3, 4, test, hello, world, 123, 8997, 876, hai, bai, du)

filter(func)

对数据集中的元素注意处理，返回经过func函数计算后返回值为true的输入元素组成

scala> pairData.collect()

res7: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1))

scala> pairData.filter(r => r._1 == r._2).collect()

res8: Array[(Int, Int)] = Array((1,1))

mapValues(func)

对数据集中的value进行逐个处理，如RRD.mapValues(v => 1.0/20)，将所有的value变为1.0/20

scala> pairData.collect()

res2: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1))

scala> pairData.mapValues( v=> 1.0/5 ).collect()

res5: Array[(Int, Double)] = Array((1,0.2), (2,0.2), (3,0.2), (4,0.2), (5,0.2))

distinct()

返回一个包含源数据集中所有不重复元素的新数据集

scala> val a = Array(1,1,3,3,4)

a: Array[Int] = Array(1, 1, 3, 3, 4)

scala> sc.parallelize(a).distinct().collect()

res6: Array[Int] = Array(1, 3, 4)

groupByKey()

对相同key的数据进行group操作，在一个（K,V）对的数据集上调用，返回一个（K，Seq[V])对的数据集

scala> pairData.collect()

res7: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.groupByKey().collect()

res9: Array[(Int, Seq[Int])] = Array((1,ArrayBuffer(1, 1)), (3,ArrayBuffer(1, 1)), (4,ArrayBuffer(1)))

reduceByKey(func)

使用指定的reduce函数，将相同key的值聚合到一起，并执行函数

scala> pairData.collect()

res7: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.reduceByKey(_+_).collect()

res10: Array[(Int, Int)] = Array((1,2), (3,2), (4,1))

sortByKey([ascending], [numTasks])

scala> pairData.collect()

res7: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.sortByKey(false).collect

res12: Array[(Int, Int)] = Array((4,1), (3,1), (3,1), (1,1), (1,1))

union(otherDataSet)

返回一个新的数据集，新数据集是由源数据集和参数数据集联合而成

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData2.collect()

res14: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (7,1))

scala> pairData.union(pairData2).collect()

res15: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1), (1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (7,1))

join(otherDataSet)

在类型为（K,V)和（K,W)类型的数据集上调用时，返回一个相同key对应的所有元素对在一起的(K, (V, W))数据集

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData2.collect()

res14: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (7,1))

scala> pairData.distinct().join(pairData2.distinct()).collect()

res18: Array[(Int, (Int, Int))] = Array((1,(1,1)), (3,(1,1)), (4,(1,1)))

cogroup(otherDataSet)

在类型为（K,V)和（K,W)的数据集上调用，返回一个 (K, Seq[V], Seq[W])元组的数据集

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData2.collect()

res14: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (7,1))

scala> pairData.distinct().cogroup(pairData2.distinct()).collect()

res19: Array[(Int, (Seq[Int], Seq[Int]))] = Array((5,(ArrayBuffer(),ArrayBuffer(1))), (6,(ArrayBuffer(),ArrayBuffer(1))), (1,(ArrayBuffer(1),ArrayBuffer(1))), (2,(ArrayBuffer(),ArrayBuffer(1))), (7,(ArrayBuffer(),ArrayBuffer(1))), (3,(ArrayBuffer(1),ArrayBuffer(1))), (4,(ArrayBuffer(1),ArrayBuffer(1))))

cartesian(otherDataSet)

笛卡尔积，在类型为 T 和 U 类型的数据集上调用时，返回一个 (T, U)对数据集(两两的元素对)

scala> pairData.distinct().collect()

res16: Array[(Int, Int)] = Array((1,1), (3,1), (4,1))

scala> pairData2.collect()

res14: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1), (6,1), (7,1))

scala> pairData.distinct().cartesian(pairData2).collect()

res20: Array[((Int, Int), (Int, Int))] = Array(((3,1),(1,1)), ((3,1),(2,1)), ((3,1),(3,1)), ((3,1),(4,1)), ((3,1),(5,1)), ((3,1),(6,1)), ((3,1),(7,1)), ((4,1),(1,1)), ((4,1),(2,1)), ((4,1),(3,1)), ((4,1),(4,1)), ((4,1),(5,1)), ((4,1),(6,1)), ((4,1),(7,1)), ((1,1),(1,1)), ((1,1),(2,1)), ((1,1),(3,1)), ((1,1),(4,1)), ((1,1),(5,1)), ((1,1),(6,1)), ((1,1),(7,1)))

sample(withReplacement,fraction, seed)

返回一个数组，在数据集中随机采样num个元素组成，可以选择是否用随机数替换不足的部分，Seed用于指定的随机数生成器种子

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.sample(false, 0.2, 1)

res34: Array[(Int, Int)] = Array((4,1))

reduce(func)

通过函数func（接受两个参数，返回一个参数）聚集数据集中的所有元素。

scala> val c = Array(1, 2, 3, 4, 5)

c: Array[Int] = Array(1, 2, 3, 4, 5)

scala> sc.parallelize(c).reduce(_+_)

res24: Int = 15

collect()

以数组的形式，返回数据集的所有元素

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

count()

返回数据集的元素的个数

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.count()

res29: Long = 5

first()

返回数据集中的第一个元素

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.first()

res30: (Int, Int) = (1,1)

take(n)

返回一个由数据集的前n个元素组成的数组。

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.take(3)

res31: Array[(Int, Int)] = Array((1,1), (1,1), (3,1))

takeSample(withReplacement,num, seed)

返回一个数组，在数据集中随机采样num个元素组成，可以选择是否用随机数替换不足的部分，Seed用于指定的随机数生成器种子

scala> pairData.collect()

res16: Array[(Int, Int)] = Array((1,1), (1,1), (3,1), (3,1), (4,1))

scala> pairData.takeSample(false, 2, 1)

res36: Array[(Int, Int)] = Array((3,1), (3,1))

countByKey()

返回一个(K，Int)对的Map，表示每一个key对应的元素个数

scala> pairData.countByKey()

res37: scala.collection.Map[Int,Long] = Map(3 -> 2, 4 -> 1, 1 -> 2)

saveAsTextFile(path)

将数据集的元素，以textfile的形式，保存到本地文件系统，HDFS或者任何其它hadoop支持的文件系统。

saveAsSequenceFile(path)

将数据集的元素，以Hadoop sequencefile的格式，保存到指定的目录下，本地系统，HDFS或者任何其它hadoop支持的文件系统。

foreach()

在数据集的每一个元素上，运行函数func进行更新。这通常用于边缘效果，例如更新一个累加器

scala> val accum = sc.accumulator(0)

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

scala> accum.value

res47: Int = 10

Spark中的RDD操作简介的更多相关文章

spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark_RDD之RDD操作简介
1.转化操作转化操作是返回一个新的RDD的操作,我们可以使用filter()方法进行转化.举个使用scala进行转化操作的例子. def main(args: Array[String]): Uni ...
Spark中的RDD和DataFrame
什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格. RDD和DataFrame的区别 DataFrame与RDD的主要区别在 ...
spark中的RDD以及DAG
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,s ...
浅谈大数据神器Spark中的RDD
1.究竟什么是RDD呢? 有人可能会回答是:Resilient Distributed Dataset.没错,的确是如此.但是我们问这个实际上是想知道RDD到底是个什么东西?以及它到底能干嘛?好的,有 ...
关于ios中的文本操作-简介
来源:About Text Handling in iOS 官方文档 iOS平台为我们提供了许多在app中展示文本和让用户编辑文本的方式.同时,它也允许你在app视图中展示格式化的文本和网页内容.你可 ...
spark中各种连接操作以及有用方法
val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val ...
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Appli ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...

随机推荐

reinstall_xbt: Linux中如何查看文件的最初创建时间
Linux中如何查看文件的最初创建时间与文件相关的几个时间: 1.访问时间,读一次这个文件的内容,这个时间就会更新.比如对这个文件使用more命令.ls.stat命令都不会修改文件的访问时间. ...
Base64 算法原理，以及编码、解码【加密、解密】介绍
Base64编码,是我们程序开发中经常使用到的编码方法.它是一种基于用64个可打印字符来表示二进制数据的表示方法.它通常用作存储.传输一些二进制数据编码方法!也是MIME(多用途互联网邮件扩展,主要用 ...
使用docker搭建nfs实现容器间共享文件
首先介绍下今天的两个主角:nfs和docker nfs 是什么 NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TC ...
让我们一起Go（十三）
前言: 上篇,我们了解了Go语言接口的一些知识,在这篇中,我们将继续聊聊接口这东西. Go语言空接口 Go语言中定义一个空接口,也就是没有任何函数需要实现的接口就是一个空接口,作为一个空接口,因为对象 ...
unix/linux中图形界面那些事
我们知道unix/linux刚开始的时候是没有图形界面的,随着时代的发展,排版.制图.多媒体应用越来越普遍了,这些需求都需要用到图形界面(Graphical User Interface).为此,MI ...
AC_Dream 1216 G - Beautiful People
题意:有n个人每人有一个力气值Si,美丽值Bi,满足Bi>Bj&&Si>Sj 或者 Bi<Bj&&Si<Sj 的人可以一起参见晚会,问最多有多少 ...
用户授权 OAuth 2.0
什么是OAuth OAuth是一个关于授权(Authorization)的开放网络标准,目前的版本是2.0版.OAuth适用于各种各样的包括提供用户身份验证机制的应用程序,注意是Authorizati ...
vs2010安装和使用
vs2010是之前我跟老师做网站项目时安装的,这次软件工程作业我就用它了,安装过程中的截图就不存在了,我就详细说说它的使用吧. VS2010软件挺大的,下载大概要一个多小时,安装过程大概都是下一步. ...
jquery操作常用HTML控件
设置checkbox选中: $("[id='checkbox_id3']").attr("checked", true); 设置class下所有input不可用 ...
我也想聊聊 OAuth 2.0 —— 基本概念
这是一篇待在草稿箱半年之久的文章连我自己都不知道我的草稿箱有多少未发布的文章了.这应该是我在上一家公司未解散之前写的,记得当时是要做一个开发者中心,很不幸. 今天,打开草稿箱有种莫名的伤感,看到这个 ...

Spark中的RDD操作简介

Spark中的RDD操作简介的更多相关文章

随机推荐

热门专题