RDD操作
RDD操作
1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作
| 函数名 | 目的 | 示例 | 结果 |
|
map() |
函数应用于RDD中的每个元素 | rdd.map(x=>x+1) | {2,3,4,4} |
| flatMap() | 将函数应用于RDD中的每个怨毒,通常用来切分单词 | rdd.flatMap(x=>x.to(3)) | {1,2,3,2,3,3,3} |
| filter() | 返回一个通过传给filter()的函数的元素组成的RDD | rdd.filter(x=>x!=1) | {2,3,3} |
| distinct() | 去重 | rdd.distinct() |
{1,2,3} |
| sample(withReplacement,fraction,[seed]) | 对RDD进行采样,以及是否替换 | rdd.sample(false,0.5) | 非确定 |
2.对数据分别为{1,2,3}和{3,4,5}的RDD进行针对两个RDD的转化操作
| 函数名 | 目的 | 示例 | 结果 |
| union() | 生成一个包含两个RDD中所有元素的RDD | rdd.union(other) | {1,2,3,3,4,5} |
| intersection() | 求两个RDD共同的元素RDD | rdd.intersection(other) | {3} |
| subtract() | 移除一个元素的内容 | rdd.subtract(other) | {1,2} |
| cartesian() | 与另一个RDD的笛卡儿积 | rdd.cartesian(other) | {(1,3),(1,4)...(3,5)} |
3.对一个数据为{1,2,3,3}的RDD进行基本的RDD行动操作
| 函数名 | 目的 | 示例 | 结果 |
| collect() | 所有元素 | rdd.collect() | {1,2,3,3} |
| count() | 元素个数 | rdd.count() | 4 |
| countByValue() | 各元素在rdd中出现的次数 | rdd.countByValue() | {(1,1),(2,1),(3,2)} |
| take(num) | 从rdd中返回num个元素 | rdd.take(2) | {1,2} |
| top(num) | 从rdd中返回最前面的num个元素 | rdd.top(2) | {3,3} |
| takeOrdered(num)(ordering) | 按提供的顺序,返回最前面的怒骂个元素 | rdd.takeOrdered(2)(myOrdering) | {3,3} |
| takeSample(withReplacement,num,[seed]) | 从rdd中返回任意一些元素 | rdd.takeSample(false,1) | 非确定的 |
| reduce(func) | 冰雷整合RDD中的所有数据 | rdd.reduce((x,y)=>x+y) | 9 |
| fold(zero)(func) | 和reduce一样,但是需要初始值 | rdd.fold(0)((x,y)=>x+y) | 9 |
| aggregate(zeroValue)(seqOp,combOp) | 和reduce()相似,但是通常返回不同类型的函数 |
rdd.aggregate((0,0))((x,y)=>(x,y)=>(x._1+y,x._2+1),(x,y)=>(x._1+y._1,x._2+y._2)) |
(9,4) |
| foreach(func) | 对RDd中的每个元素使用给定的元素 | rdd.foreach(func) | 无 |
键值对操作
4.pair RDD的转化操作(以键值对集合{(1,2),(3,4),(3,6)}为例)
| 函数名 | 目的 | 示例 | 结果 |
| reduceByKey(func) | 合并具有相同键的值 | rdd.reduceByKey((x,y)=>x+y) | {(1,2),(3,10)} |
| groupByKey() | 对具有相同键的值进行分组 | rdd.groupByKey() | {(1,[2]),(3,[4,6])} |
| combineByKey(createCombiner,mergeCombiners,partitioner) | 使用不同的返回类型合并具有相同键的值 | ||
| mapValue(func) | 对pairRDD中的每个值应用一个函数而不改变键 | rdd.mapValues(x=>x+1) | {(1,3),(3,5),(3,7)} |
| flatMapValues() | 对pairRDD中的每个值应用一个返回迭代器的函数,然后返回的每个元素都生成一个对应原键的键值对记录,通常用于符号化 | rdd.flatMapValues(x=>(x to 5)) | {(1,2),(1,3),(1,4),(1,5),(3,4),(3,5)} |
| keys() | 返回一个仅包含键的RDD | rdd.keys() | {1,3,3} |
| values() | 返回一个仅包含值的RDD | rdd.values() | {2,4,6} |
| sortByKey() | 返回一个根据键排序的RDD | rdd.sortByKey() | {(1,2),(3,4),(3,6)} |
针对两个pairRDD的转换操作(rdd={(1,2),(3,4),(3,6)} other={(3,9)})
| 函数名 | 目的 | 示例 | 结果 |
| subtractByKey | 删掉RDD中的键与otherRDD中的键相同的元素 | rdd.subtractByKey(other) | {(1,2)} |
| join | 对两个rdd进行内链接 | rdd.join(other) | {(3,(Some(4),9)),(3,(Some(6),9))} |
| rightOuterJoin | 连接操作,确保第一个rdd的键必须存在(右外连接) | rdd.rightOuterJoin(other) | {(3,(4,Some(9))),(3,(4,Some(9)))} |
| leftOutrtJoin | 连接操作,确保第二个rdd的键必须存在(左外连接) | rdd.leftOuterJoin(other) | {(1,(2,None)),(3,(4,Some(9))),(3,(6,Some(9)))} |
| cogroup | 将两个rdd中拥有相同键的数据分组到一起 | rdd.cogroup(other) | {(1,([2],[])),(3,([4,6],[9]))} |
5.PairRDD 的行动操作(以键值对集合{(1,2),(3,4),(3,6)})
| 函数 | 描述 | 示例 | 结果 |
| countByKey() | 对每个键对应的元素分别计数 | rdd.countByKey() | {(1,1),(3,2)} |
| collectAsMap() | 将结果以映射表的形式返回,以便查询 | rdd.collectAsMap() | Mqp{(1,2),(3,4),(3,6)} |
| lookup(key) | 返回给定键对应的所有值 | rdd.lookup(3) | [4,6] |
RDD操作的更多相关文章
- Spark学习(一)--RDD操作
标签(空格分隔): 学习笔记 Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器). RDD RDD是一种 ...
- Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念 在Spark中,有下面的基本概念.Appli ...
- Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述 键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
- SPARKR,对RDD操作的介绍
(转载)SPARKR,对RDD操作的介绍 原以为,用sparkR不能做map操作, 搜了搜发现可以. lapply等同于map, 但是不能操作spark RDD. spark2.0以后, spar ...
- spark RDD操作的底层实现原理
RDD操作闭包外部变量原则 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常.闭包函数传入到节点时,需要经过下面的步 ...
- Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化.大表小表Join,小表使用广播的方式,减少Join操作. 参考:Spark广播变量与累加器 L ...
- 【spark】RDD操作
RDD操作分为转换操作和行动操作. 对于RDD而言,每一次的转化操作都会产生不同的RDD,供一个操作使用. 我们每次转换得到的RDD是惰性求值的 也就是说,整个转换过程并不是会真正的去计算,而是只记录 ...
- 【Spark】RDD操作具体解释4——Action算子
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行. 依据Action算子的输出空间将Action算子进行分类:无输出. HDFS. S ...
- 4.RDD操作
目录 一. RDD创建 从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 通过并行集合(列表)创建RDD 二. RDD操作 转换操作 filter(func) map(func) fl ...
随机推荐
- Android(java)学习笔记89:泛型概述和基本使用
package cn.itcast_01; import java.util.ArrayList; import java.util.Iterator; /* * ArrayList存储字符串并遍历 ...
- Linux学习之路:变量值的删除、替代和替换
一.删除 var为变量名, ${var#v*r}:从左到右匹配将:头部是“v”,尾部是“r”的最短的部分删除 ${var##v*r}:从左到右匹配将:头部是“v”,尾部是“r”的最长的部分删除 ${v ...
- javaweb学习总结十六(tomcat服务器的使用、虚拟目录的映射)
一:tomcat服务器的目录 1:目录结构 2:web应用程序介绍 二:虚拟目录的映射 假如我在E盘建立一个目录web,里面存放1.html文件,我想让外界访问 1:直接在conf目录下的server ...
- 一个把List<String>转化为以","隔开的字符串的方法
import java.util.ArrayList; import java.util.List; /** * 集合操作 * @author intrl * @date 2010-12-15 * @ ...
- hdu 4421 2-SAT问题
思路:我们需要判断是否有满足的a[n],其实也就是对每一个二进制位进行判断,看是否有满足的.那么我们每次取出一个二进制位,这样每一位只有0,1两种状态,就成了比较典型的2-SAT问题了. #inclu ...
- oracle 中将字符转换为blob 类型
示例如下: select id,mblx,mbmc,TO_BLOB(UTL_RAW.CAST_TO_RAW(mbsj))mbsj,qyid,qycode from tempuser.temp_cwht ...
- 你所不知道的z-index的用法
在开始今天的内容之前,先让我们来看下面一段代码: <style type="text/css"> #div1,#div2{ width:200px; height:20 ...
- DOS批处理命令-call命令
call命令 在批处理中调用别的批处理或者可运行程序或者 バッチ プログラムを別のバッチ プログラムから呼び出します. 语法 1.CALL [驱动盘符:][路径]文件名 [参数] 调用并执行[驱动盘符 ...
- JAVA 实现通过URL下载文件到本地库
/** * TODO 下载文件到本地 * @author nadim * @date Sep 11, 2015 11:45:31 AM * @param fileUrl 远程地址 * @param f ...
- Cocos开发中Visual Studio下HttpClient开发环境设置
Cocos2d-x 3.x将与网络通信相关的类集成到libNetwork类库工程中,这其中包括了HttpClient类.我们需要在Visual Studio解决方案中添加libNetwork类库工程. ...