Spark基础:(三)Spark 键值对操作
1、pair RDD的简介
Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD就被称为pair RDD
那么如何创建pair RDD呢? 在不同的语言中有着不同的创建方式
在python和Scala语言中创建的方式都是差不多的。
在java语言中:
java用户还需要调用专门的Spark函数mapToPair()来创建pair RDD。例如:
//映射,word -> (word,1)
JavaPairRDD<String,Integer> rdd3 = rdd2.mapToPair(new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String s) throws Exception {
return new Tuple2<String, Integer>(s,1);
}
});
2、pair RDD常见的转化操作
(1)以键值对{(1,2),(3,4),(3,6)}为例子
rdd.reduceByKey((x,y)=>x+y) ===> {(1,2),(3,10)}
rdd.groupByKey() ===> {(1,[2]),(3,[4,6])}
rdd.mapValues(x=>x+1) ===> {(1,3),(3,5),(3,7)}
rdd.flatMapValues(x=>(x to 5)) ===> {(1,2),(1,3),(1,4),(1,5),(3,4),(3,5)}
(2)针对两个pair RDD的转化,以键值对rdd={(1,2),(3,4),(3,6)}和orther={(3,9)}
rdd.substractByKey(orther) ==> {(1,2)} #删除相同的
rdd.join(orther) ==> {(3,(4,9)),(3,(6,9))}
rdd.rightOuterJoin(orther) ==> {(3,(Some(4),9)),(3,(Some(6),9))}
rdd.leftOuterJoin(orther) ==> {(1,(2,None)),(3,(4,Some(9))),(3,(6,Some(9)))}
rdd.cogroupn(orther) ==> {(1,([2],[])),(3,([4,6],[9]))} #将两个RDD中相同的键的数据分组
(3)聚合操作
如reduceByKey()前面已经讲过,此处不再赘述。
并行度调优: 每个RDD都有自己固定的数目的分区,分区数决定了RDD上的执行操作的并行度,在执行聚合或者分组操作时,可以要求Spark使用给定的分区数。Spark始终尝试根据集群的大小推断一些有意义默认值。但是,有时候可以根据并行度的调优来获取更好的性能要求。
Spark还提供了repartition()函数,他会把数据通过网络进行混洗,并创建出新的分区集合,但是对数据进行重新分区是代价比较大的操作。为此,Spark提供了一款优化版的repartition(),叫coalesce()。(我们可以通过rdd.getNumPartitions查看RDD的分区)
(4)分组操作
如groupByKey()前面已经讲过,此处不再赘述。需要注意的是:返回的是[K,Iterable[V]]类型
(5)连接操作
join的操作,前面已经简单介绍
(6)数据排序
rdd.sortByKey() #注意要提供自定义的比较函数
3、pair RDD的行动操作
以键值对{(1,2),(3,4),(3,6)}为例子
rdd.countByKey() ===> {(1,1),(3,2)} #统计键出现的次数
rdd.collectAsMap() ===> Map{(1,2),(3,4),(3,6)} #返回的Map 便于查询
rdd.lookup(3) ===> [4,6] #返回给定键对应的所有值
4、数据分区
自定义分区并且持久化降低网络通信的开销
例如:Scala实现的例子
val sc=new SparkContext(…) val
userData=sc.sequenceFile[UserID,UserInfo](“hdfs://…”)
.partitionBy(new HashPartitioner(100)) //构造100个分区
.persist()
同样的我们还可以通过partitioner方法来获取RDD的分区方式
Spark基础:(三)Spark 键值对操作的更多相关文章
- spark入门(三)键值对操作
1 简述 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD. 2 创建PairRDD 2.1 在sprk中,很多存储键值对的数据在读取时直接返回由其键值对数据组成 ...
- Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
- Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
- Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
- Redis源码解析:09redis数据库实现(键值对操作、键超时功能、键空间通知)
本章对Redis服务器的数据库实现进行介绍,说明Redis数据库相关操作的实现,包括数据库中键值对的添加.删除.查看.更新等操作的实现:客户端切换数据库的实现:键超时相关功能的实现.键空间事件通知等. ...
- Spark学习笔记3:键值对操作
键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为pair RDD.pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口. S ...
- Spark学习笔记——键值对操作
键值对 RDD是 Spark 中许多操作所需要的常见数据类型 键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式. Spark 为包 ...
- 键值对操作 上(Spark自学五)
键值对RDD是Spark中许多操作所需要的常见数据类型. “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性.使用可控的分区方式把常在一起被访问的数据放在同一个节点上,可以大大减少应用的 ...
- redis基础之基本键值操作和使用(三)
前言 redis安装完毕后开始使用redis,先熟悉命令行操作. redis数据的类型 键:redis的所有的键都是string类型: 值:五种类型 string:字符串类型:一个string最大可以 ...
随机推荐
- 寻找下一个结点 牛客网 程序员面试金典 C++ java Python
寻找下一个结点 牛客网 程序员面试金典 C++ java Python 题目描述 请设计一个算法,寻找二叉树中指定结点的下一个结点(即中序遍历的后继). 给定树的根结点指针TreeNode* root ...
- [mysql课程作业]我的大学|作业
第八周周五 1.将xs表中王元的专业改为"智能建筑". # update xs set 专业名='智能建筑' where 姓名='王元'; # select * from xs w ...
- JMeter学习笔记--录制脚本(二)
第一步:在JMeter中添加线程组,命名为访问首页 第二步:在线程组下添加HTTP请求默认值 添加->配置元件->HTTP请求默认值,设置服务器IP和端口号(JMeter默认使用80端口号 ...
- js--数组的 Array.of() 和 Array.from() 方法的使用总结
前言 JavaScript 中数组的本质是一个对象,它存在的 length 属性值随数组元素的长度变化,但是开发中经常会遇到拥有 length 属性和若干索引属性的对象,被称为类数组对象,类数组对象和 ...
- .net core api 请求实现接口幂等性
简单实现接口幂等性,根据参数的hascode实现: 参数介绍 WaitMillisecond : 请求等待毫秒数 CacheMillisecond:请求结果缓存毫秒数 参数具体使用场景 WaitMi ...
- python unicode escape
from: https://stackoverflow.com/questions/44742806/how-to-remove-escape-characters-escaping-unicode- ...
- 寒武纪加速平台(MLU200系列) 摸鱼指南(二)--- 模型移植-环境搭建
PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 前置说明 本文作为本人csdn blog的主站的备份.(Bl ...
- 八、hive3.1.2 安装及其配置(本地模式和远程模式)
目录 前文 hive3.1.2 安装及其配置(本地模式和远程模式) 1.下载hive包 2.修改其环境变量 3.MySQL配置 Centos7 MySQL安装步骤: 1.设置MySQL源 2.安装My ...
- 实用QPS和TPS高的高效分析方法
现在主库的MySQL的QPS一直在3K/s左右,想知道其到底执行了那些SQL,或者是那些SQL执行的次数比较多: 腾讯云的后台监控: 开启腾讯云的SQL审计后,下载几分钟SQL日志文件, 下列语句在M ...
- 【JavaSE】类与类的关系--UML
类(对象/接口)之间的关系 -- UML类图展现 2019-07-14 14:37:19 by冲冲 在面向对象程序设计时,类与类之间的关系主要分为:继承,实现,依赖,关联,聚合,组合等6种关系. ...