【Spark】算子

1. mapWith

mapWith(i => i*10)((a,b) => b+2)

(拿到分区号)(a是每次取到的RDD中的元素，b接收i*10的结果)

2. flatMapWith

类似mapWith，区别在于flatMapWith返回的是一个序列

3. mapPartitions

每次取到的是分区号

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7),3)

对分区每个元素乘10

rdd1.mapPartitions(_.map(_ * 10))

4. mapPartitionsWithIndex

对RDD中的每个分区进行操作，带有分区号

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)

创建一个函数

(index分区号，iter分区中的每个元素)

def func1(index:Int,iter:Iterator[Int]):Iterator[String] ={

ter.toList.map(x=>"[PartID:" + index +",value="+x+"]").iterator

}

rdd1.mapPartitionsWithIndex(func1).collect

结果：

Array(

[PartID:0,value=1], [PartID:0,value=2], [PartID:0,value=3], [PartID:0,value=4],

[PartID:1,value=5], [PartID:1,value=6], [PartID:1,value=7], [PartID:1,value=8], [PartID:1,value=9])

5. aggregate：聚合操作

先对局部进行操作，再对全局进行操作

val rdd1 = sc.parallelize(List(1,2,3,4,5),2)

（初始值）（局部操作，全局操作）

rdd1.aggregate(0)(math.max(_,_),_+_)

6. aggregateByKey

类似aggregate，也是先对局部，再对全局

区别：aggregateByKey操作<key,value>

val pairRDD = sc.parallelize(List( ("cat",2), ("cat", 5), ("mouse", 4),("cat", 12), ("dog", 12), ("mouse", 2)), 2)

把每个笼子中，每种动物最多的个数进行求和

（初始值）（局部操作，全局操作）

pairRDD.aggregateByKey(0)(math.max(_,_),_+_).collect

7. foldByKey:对相同key进行聚合操作

foldByKey(初始值)（对value的操作）

拼接相同key的value字符串

val rdd1 = sc.parallelize(List("dog", "wolf", "cat", "bear"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

val rdd3 = rdd2.foldByKey("")(_+_)

结果：Array[(Int, String)] = Array((4,wolfbear), (3,dogcat))

8. combineByKey 操作的是key-value

val rdd3 = rdd1.combineByKey(x => x + 10, (a: Int, b: Int) => a + b, (m: Int, n: Int) => m + n)

第一个参数:List(_),（分区的每一个元素：它的类型就是整个函数的返回类型（List[String]））

第二参数 (x: List[String], y: String=> x :+ y,)：分区内的局部聚合，x与第一个参数的返回类型一致，y是RDD的每一个value

第三个参数（(m: List[String], n: List[String]) => m ++ n）：全局聚合，类型与第一个参数一致

val rdd7 = rdd6.combineByKey(List(_), (x: List[String], y: String) => x :+ y, (m: List[String], n: List[String]) => m ++ n)

9. coalesce、repartition、partitionBy:重新分区

coalesce：默认不会shuffle，可以重新分更小的分区，不能分更大的分区，如果要shuffle，需要传入参数true

val rdd1 = sc.parallelize(1 to 10, 5)

val rdd2 = rdd1.coalesce(10, true)

rdd2.partitions.length

repartition: 会进行shuffle，任意分区都可以，传入参数是Int数字

rdd1.repartition(8)

partitionBy:会进行shuffle,任意分区都可以，传入参数是分区器

rdd1.partitionBy(new org.apache.spark.HashPartitioner(7))

10. countByKey 计算相同key的元组有多少个

countByValue：计算相同value的元组有多少个

val rdd1 = sc.parallelize(List(("a", 1), ("b", 2), ("b", 2), ("c", 2), ("c", 1)))

rdd1.countByKey

rdd1.countByValue

11. filterByRange ：根据key的范围进行过滤

val rdd1 = sc.parallelize(List(("e", 5), ("f",2),("c", 3), ("d", 4), ("c", 2), ("a", 1)))

取出c到d范围的元组

val rdd2 = rdd1.filterByRange("c", "d")

rdd2.colllect

12. flatMapValues ：对元组的值进行操作并压平

val rdd3 = sc.parallelize(List(("a","1 2"), ("b","3 4")))

rdd3.flatMapValues(_.split(" ")).collect

结果： Array[(String, String)] = Array((a,1), (a,2), (b,3), (b,4))

13. foreachPartition ：对每个分区的操作，返回每个分区的结果

val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9), 3)

rdd1.foreachPartition(x => println(x.reduce(_ + _)))

结果

14. keyBy ：将传入的参数作为元组的key，原RDD元素作为value

val rdd1 = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

val rdd2 = rdd1.keyBy(_.length)

rdd2.collect

结果：Array[(Int, String)] = Array((3,dog), (6,salmon), (6,salmon), (3,rat), (8,elephant))

15. keys ：获取RDD的key

values ：获取RDD的value

val rdd1 = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", "eagle"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

rdd2.keys.collect

rdd2.values.collect

16. collectAsMap ：将集合转化成元组

val rdd = sc.parallelize(List(("a", 1), ("b", 2)))

rdd.collectAsMap

结果：scala.collection.Map[String,Int] = Map(b -> 2, a -> 1)

【Spark】算子的更多相关文章

(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
spark算子集锦
Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新. Spark 算子按照功能分,可以分成两大类:transform 和 action.Transform 不 ...
Spark算子使用
一.spark的算子分类转换算子和行动算子转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行.在spark中每一个算子在计算之后就会产生一个新的RDD. 二.在编写sp ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...

随机推荐

C#mail发送
这里,简单封装一个函数来发送邮件,代码如下: /// <summary> /// 邮件发送辅助类 /// </summary> public class MailHelper ...
启动入口Start.java分析
框架的启动器在包:org.ofbiz.base.start 入口为:Start.java的main方法 Start.java启动器内容: 步骤详情入参校验 help/status/shutdown ...
Oracle三种链接方式的区别
1 nested loops join--我们用设置statistics_level=all的方式来观察如下表连接语句的执行计划: --T2表被访问100次(驱动表访问1次,被驱动表访问100次)-- ...
July 14th 2017 Week 28th Friday
A life without a dress rehearsal, every day is broadcast live. 人生没有彩排,每天都是现场直播. Every day when I pre ...
SAP C/4HANA Sales Cloud使用OData服务和第三方系统集成的一个具体例子
出于工作需要,Jerry写了这篇文章,给某些Partner做参考. 以前Jerry曾经介绍过SAP C/4HANA的五朵云到底包含哪些具体产品,其实在SAP官网上有更权威的中文解释: https:// ...
MySQL绿色解压缩版安装与配置
操作步骤: 一.安装MySQL数据库 1.下载MySQL-5.6.17-winx64.zip文件.2.解压到指定目录,本例为D:\mysql-5.6.17-winx64.3.修改配置文件,my-def ...
jmeter测试mysql性能
1.下载jdbc.将jdbc解压,将mysql-connector-java-version-ga-bin.jar这个文件copy到jmeter/lib下 2.打开jmeter,设置jdbc请求. 1 ...
IIS 7.5+FCK编辑器+burp suite神器拿webshell
本人小菜一枚,大牛勿喷看图: 一个越南狗的网站,看了看好多人来过哦,估计都是在这跪下了,试了好多别人上传滴都不行,看了看是IIS7.5,难怪都卡在这里了,于是小编直接上神器Burp Suite- 截 ...
分享上传图片shell的绕过过滤的几种方法
一般网站图片上传功能都对文件进行过滤,防止webshell写入.但不同的程序对过滤也不一样,如何突破过滤继续上传? 本文总结了七种方法,可以突破! 1.文件头+GIF89a法.(php)//这个很好理 ...
CSAPP buffer lab记录——IA32版本
CSAPP buffer lab为深入理解计算机系统(原书第二版)的配套的缓冲区溢出实验,该实验要求利用缓冲区溢出的原理解决5个难度递增的问题,分别为smoke(level 0).fizz(level ...

【Spark】算子

【Spark】算子的更多相关文章

随机推荐

热门专题