键值对操作上（Spark自学五）

键值对RDD是Spark中许多操作所需要的常见数据类型。

“分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上，可以大大减少应用的通信开销，带来明显的性能提升。

4.1 动机

　　Spark为pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。

4.2 创建Pair RDD

　　当需要把一个普通的RDD转为pair RDD时，可以调用map()函数来实现。下例为如何将由文本行组成的RDD转换为以每行的第一个单词为键的pair RDD。

　　例4-1：在Python中使用第一个单词作为键创建出一个pair RDD

pairs = lines.map(lambda x: (x.split(" ")[0], x))

　　例4-2：在Scala中使用第一个单词作为键创建出一个pair RDD

val pairs = lines.map(x => (x.split(" ")(0), x))

　　4.3 Pair RDD的转化操作

　　　　Pair RDD可以使用所有标准RDD上的可用的转化操作。

　　　　Pair RDD的转化操作（以键值对集合{（1，2），（3，4），（3，6）}）为例:

　　　　　　rdd.reduceByKey((x, y)=>x+y) 结果：{(1,2), (3,10)}

　　　　　　rdd.groupByKey() 结果：{(1,[2]),(3,[4,6])}

　　　　　　rdd.mapValues(x => x+1) 结果：{(1,3),(3,5),(3,7)}

　　　　　　rdd.keys() 结果：{1，3，3}

　　　　　　rdd.values() 结果：{2,4,6}

　　　　　　rdd.sortByKey() 结果：{（1，2），（3，4），（3，6）}

　　　　筛选掉长度超过20个字符的行，如下：

　　　　例4-4：用Python对第二个元素进行筛选

result = pairs.filter(lambda keyValue: len(keyValue[1]<20))

　　　　例4-5：用Scala对第二个元素进行筛选、

pairs.filter{case (key, value) => value.length < 20}

　　　　　　4.3.1 聚合操作

　　　　　　使用reduceByKey()和mapValues()来计算每个键的对应值的均值。

　　　　　　例4-7：在Python中使用reduceByKey()和mapValues()计算每个键对应的平均值

rdd.mapValues(lambda x:(x, 1)).reduceByKey(lambda x, y: (x[0]+y[0], x[1]+y[1]))

　　　　　　例4-8：在Python中使用reduceByKey()和mapValues()计算每个键对应的平均值

rdd.mapValues(x => (x, 1)).reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

　　　　　　解决分布式单词计数问题如下

　　　　　　例4-9：用Python实现单词计数

rdd = sc.textFile("s3://...")

words = rdd.flatMap(lambda x: x.split(" "))

result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y:x+y)

　　　　　　例4-10：用Scala实现单词计数

val input = sc.textFile("s3://...")

val words = input.flatMap(x => x.split(" "))

val result = words.map(x => (x, 1)).reduceByKey((x, y) => x+y)

　　　　　　我们可以使用countByValue()函数，以更快地实现单词计数：input.flatMap(x => x.split(" ")).countByValue().

　　　　　　Spark怎样确定如何分割工作：每个RDD都有固定数目的分区，分区数决定了在RDD上执行操作时的并行度。

　　　　　　例4-15: 在Python中自定义reduceByKey()的并行度

data = [("a", 3), ("b", 4), ("a", 1)]

sc.parallelize(data).reduceByKey(lambda x, y: x+y, 10)

　　　　4.3.2 数据分组

　　　　　　略

　　　　4.3.3 连接

　　　　　　连接数据操作：将有键的数据与另一组有键的数据一起使用。连接方式：右外连接、左外连接、交叉连接以及内连接。

　　　　　　例4-17：在Scala shell中进行内连接

storeAddress = {

    (Store("Ritual"), "AAA"), (Store("Philz"), "BBB"),

    (Store("Philz"), "CCC"), (Store("Starbucks"), "DDD")}

storeRating = {

    (Store("Ritual"), 4.9), (Store("Philz"), 4.8)}

storeAddress.rightOuterJoin(storeRating) == {

    (Store("Ritual"), "AAA", 4.9)),

    (Store("Philz"), "BBB", 4.8)),

    (Store("Philz"), "CCC", 4.8))}

　　　　　　例4-18：leftOuterJoin()与rightOuterJoin()

storeAddress = {

    (Store("Ritual"), "AAA"), (Store("Philz"), "BBB"),

    (Store("Philz"), "CCC"), (Store("Starbucks"), "DDD")}

storeRating = {

    (Store("Ritual"), 4.9), (Store("Philz"), 4.8)}

storeAddress.rightOuterJoin(storeRating) == {

    (Store("Ritual"), (Some("AAA"), 4.9)),

    (Store("Philz"), (Some("BBB"), 4.8)),

    (Store("Philz"), (Some("CCC"), 4.8))}

storeAddress.leftOuterJoin(storeRating) == {

    (Store("Ritual"), ("AAA", Some(4.9))),

    (Store("Starbucks"),("DDD",None)),

    (Store("Philz"), ("BBB", Some(4.8))),

    (Store("Philz"), ("CCC", Some(4.8)))}

　　　　　4.3.4 数据排序

　　　　　　略

键值对操作上（Spark自学五）的更多相关文章

Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
Spark学习笔记——键值对操作
键值对 RDD是 Spark 中许多操作所需要的常见数据类型键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式. Spark 为包 ...
Redis源码解析：09redis数据库实现（键值对操作、键超时功能、键空间通知）
本章对Redis服务器的数据库实现进行介绍,说明Redis数据库相关操作的实现,包括数据库中键值对的添加.删除.查看.更新等操作的实现:客户端切换数据库的实现:键超时相关功能的实现.键空间事件通知等. ...
go 发送post请求（键值对、上传文件、上传zip）
一.post请求的Content-Type为键值对 1.PostForm方式 package main import ( "net/http" "net/url" ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark学习笔记3：键值对操作
键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为pair RDD.pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口. S ...
Spark基础：（三）Spark 键值对操作
1.pair RDD的简介 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD就被称为pair RDD 那么如何创建pair RDD呢? 在不同的语言中有着不同的创建方式在pytho ...
spark入门（三）键值对操作
1 简述 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD. 2 创建PairRDD 2.1 在sprk中,很多存储键值对的数据在读取时直接返回由其键值对数据组成 ...

随机推荐

golang的各种打印
golang的打印方法太特么多了,下面就来区分一下之间的差异 package main import ( "fmt" "os" ) func main() { ...
【 Nginx 】proxy_cache 模块的使用记录
部署环境:nginx + tomcat 同一台服务器. 通过nginx反向代理tomcat. 配置如下: user www www; worker_processes auto; error_log ...
DRF最高封装的子类视图
# 转载请留言联系子类视图: 视图作用方法父类 ListAPIView 查询多条数据 get GenericAPIView ListModelMixin CreateAPIView 新增一条数 ...
echarts地图自定义任意区域
这里可以直接在地图上框选区域,右侧会自动生成geojson
常用的LUA片段
生成TS的办法 local t=ngx.now(); local n=os.date(,); n=n..-string.len(n)); ngx.say(n); 产生101至200的所有素数 func ...
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
box-shadow用法简介
语法: box-shadow:<length><length& ...
[BZOJ 1499] 瑰丽华尔兹
Link:https://www.lydsy.com/JudgeOnline/problem.php?id=1499 Solution : 能立即发现这是和动态规划相关的题目令f[t][i][j]表 ...
[xsy2164]theory
又积累了一个网络流模型:最大权闭合子图,相关证明去看论文,感觉自己不是很懂证明,但现在还是先把建模记下来再说吧枚举一个点,硬点它一定要被选中,那么以它为根,如果选了$x$就必须要选$fa_x$,这就 ...
【二维莫队】【二维分块】bzoj2639 矩形计算
<法一>二维莫队,对n和m分别分块后,对块从上到下从左到右依次编号,询问以左上角所在块编号为第一关键字,以右下角标号为第二关键字排序,转移时非常厉害. O(q*n*sqrt(n)). #i ...

键值对操作 上（Spark自学五）

键值对操作 上（Spark自学五）的更多相关文章

随机推荐

热门专题

键值对操作上（Spark自学五）

键值对操作上（Spark自学五）的更多相关文章