Learning Spark 第四章——键值对处理
本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作,使用相同的key聚集或者对不同的RDD进行聚集。部分情况下,需要将spark中的数据记录转换为键值对然后进行聚集处理。
我们也会对键值对RDD的高级特性——分区进行讨论,用户可以控制RDD在节点间的布局,确保数据在同一机器上面,减少通信开销,将极大地提高效率。数据分区的选择与单机程序数据结构的选择一样,都能对程序的性能产生极大的影响。
主要分为以下几个章节:
- 创建PairRDD
- Transformation on Pair RDD
- Actions on Pair RDD
- 数据分区partition
Motivation
spark对Pair RDD提供了一系列的特殊操作。例如reduceByKey可以对RDD按照key进行聚合;join方法可以对两个RDD按照相同元素进行分组合并。
创建 Pair RDD
有多重方法可以创建Pair RDD,也可以将其他类型的RDD转化为Pair RDD。 下面代码将字符串第一个单词作为key
scala示例:
input.map(x => (x.split(" ")(0), x))
java没有内置的元组类型,可以引入scala.Tuple2,代码如下
PairFunction<String, String, String> keyData = new PairFunction<String, String, String>() { public Tuple2<String, String> call(String x) { returnnew Tuple2(x.split(" ")[0], x);
}
};
JavaPairRDD<String, String> rdd = input.mapToPair(keyData);
Transformation on Pair RDDs
Pair RDD可以进行通用的转换操作,例如map等。由于它包含元组,我们传入的函数其参数应该为元组。
reduceByKey:与reduce类似,对RDD进行合并。对RDD中每个元素进行操作,按照相同的key,对value进行操作并合并;
foldByKey:提供初值为0,要求合并操作对0没有影响。
以上两个转换在实际执行时,会先在各个节点进行combine,然后再进行全局合并,提升性能。
示例1:求取平均值
示例2:word count
实际上word count可以使用countByValue简化计算
input.flatMap(x =>x.split(" ")).countByValue()
combineByKey:是按照Key进行合并的通用函数,可以实现大部分按单Key合并的操作,它允许用户输入与输出类型不同;可以根据情况禁用map side aggregation(map过程的合并操作),例如groupByKey的map side aggregatation并不能提高性能,一般禁用。
示例:按key求平均值
combineByKey的数据流如下图所示:
并行级别调整
RDD的分区数直接影响着spark执行的并行程度,可以指定分区数对spark的并行程度进行微调。
代码示例
有 时需要在grouping和aggregating的上下文环境之外改变RDD分区,可以通过Spark提供的repartition工具,由于涉及 shuffle操作,代价很高。当减少RDD分区时,可以使用coalesce合并,数据移动更少,性能更优。可以通过 rdd.partitions.size()确定分区数,判断是否可用coalesce。
分组
groupBy将RDD元素按照函数处理,将结果作为主键进行分组;
groupByKey按照主键进行分组;
可以使用特定的reduce函数代替groupBy+reduce,因为可以将归约后结果放入RDD,而不是归约前的数据,提高效率。
cogroup可以对多个RDD按照相同主键进行分组,是join连接处理的基础。
连接
spark支持内连接、左外连接、右外连接和交叉链接。参照数据库中join的概念进行理解。
排序
RDD排序可以保证后续的调用,数据都是有序的。
例如将String与int混合的RDD进行排序:
Pair RDD可执行的转换总结如下所示:
Action on Pair RDDs
决定RDDs分区
PageRank 是个迭代算法,要执行很多的连接,所以这是个 RDD 分区的好用例。 该算法包括两个数据集:一个是(pageID, linkList),其元素包含了每个页的邻居 列表;另一个是(pageID, rank),其元素是每个页的当前 rank。处理流程如下:
1. 初始化每页的 rank 为 1.0
2. 对每次迭代,页面 p 发送 rank(p)/numNeighbors(p)的贡献给它的邻居(该 页连接出去的)
3. 设置每页的 rank 为 0.15+0.85*contributionsReceived。
最后两步重复的多次迭代,算法会收敛到每个页面都有正确的 PageRank 值。实 际上,一般要运行大约 10 次迭代。
- 将link持久化,避免分区间数据交互;
- 使用mapValues创建ranks,保留了分区信息,第一次join开销不大;
- 最后在reduceByKey后面使用mapValues,因为reduceByKey的结果时有分区的,此时mapValues继承分区信息,提高效率;
自定义分区
Learning Spark 第四章——键值对处理的更多相关文章
- 《Deep learning》第四章——数值计算
数值计算 机器学习算法通常需要大量的数值计算.这通常是指通过迭代过程更新解的估计值来解决数学问题的算法,而不是通过解析过程推导出公式来提供正确解的方法.常见的操作包括优化(找到最小化或最大化函数值的参 ...
- Learning Spark中文版--第四章--使用键值对(2)
Actions Available on Pair RDDs (键值对RDD可用的action) 和transformation(转换)一样,键值对RDD也可以使用基础RDD上的action(开工 ...
- Learning Spark中文版--第四章--使用键值对(1)
本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型.键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load ...
- Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
- Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述 键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
- Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
- Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
- 3. 键值对RDD
键值对RDD是Spark中许多操作所需要的常见数据类型.除了在基础RDD类中定义的操作之外,Spark为包含键值对类型的RDD提供了一些专有的操作在PairRDDFunctions专门进行了定义.这些 ...
- 【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
随机推荐
- javascript中的原型和继承
javascript一直是初学者口中的难点,甚至一些有些许工作经验的人也不太明白其中的原理,而我就是那个初学者,前段时间在阮一峰老师的博客上看了一篇文章<javascript继承机制的设计思想& ...
- BZOJ3160万径人踪灭
Description Input & Output & Sample Input & Sample Output HINT 题解: 题意即求不连续但间隔长度对称的回文串个数. ...
- MikroTik RB750r2 操作记录
1. 客户端的下载 http://www.mikrotik.com/download 下载 winbox 2. Reset重置密码的正确姿势 http://wiki.mikrotik.com/ind ...
- SQL操作符
Oracle中的操作符算术操作符:无论是在sqlserver,或者是java中,每种语言它都有算术操作符,大同小异. Oracle中算术操作符(+)(-)(*)(/) 值得注意的是:/ 在oracle ...
- go interface
//所有的结构体 都实现了空接口 //接口类型转换 结构体变量 = 接口名(实现接口的结构体变量) 只能高级转为低级 就是转前的接口中方法在转后接口中都有实现 package main import ...
- 修改/etc/profile和/etc/environment导致图形界面无法登陆的问题
在使用ubuntu开发时,往往要修改PATH变量,有时会通过修改/etc/profile和/etc/environment来修改默认的PATH变量,但是一旦出错,很容易造成无法登陆进入图形界面的问题. ...
- hTML5实现表单内的上传文件框,上传前预览图片,针刷新预览images
hTML5实现表单内的上传文件框,上传前预览图片,针刷新预览images, 本例子主要是使用HTML5 的File API,建立一個可存取到该file的url, 一个空的img标签,ID为img0,把 ...
- sql查询,不在某一范围问题的新思路
新思路: A为学生表 B为中间表(学生和课程的) C为课程表 新的思路是用left join,(right join应该也可以) 查询没有选课的学生 ... C left join B on A.si ...
- Java的配置文件有多少种
最正宗的只有两个xml和properties两种,其中properties文件用的最广. 其实还有一些如txt,excel这些也可以实现配置文件,但不太正宗. 对于配置文件需要注意以下几点: 1.路径 ...
- 自己写的服务出现"服务没有及时响应启动或控制请求 1053" 错误
自己写了一个服务,安装到电脑上后 启动时发现报"服务没有及时响应启动或控制请求 1053" 这个错误 在网上找了一些方法,都没有解决 后来,看了下,原来有个写文件的方法读取文件没有 ...