Spark常用函数讲解之Action操作

摘要：

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集
RDD有两种操作算子：

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作
Ation（执行）：触发Spark作业的运行，真正触发转换算子的计算

本系列主要讲解Spark中常用的函数操作：
1.RDD基本转换
2.键-值RDD转换
3.Action操作篇

本发所讲函数

1.reduce

2.collect

3.count

4.first

5.take

6.top

7.takeOrdered

8.countByKey

9.collectAsMap

10.lookup

11.aggregate

12.fold

13.saveAsFile

14.saveAsSequenceFile

1.reduce(func):通过函数func先聚集各分区的数据集，再聚集分区之间的数据，func接收两个参数，返回一个新值，新值再做为参数继续传递给函数func，直到最后一个元素

2.collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小

3.count()：返回数据集元素个数

4.first():返回数据集的第一个元素

5.take(n):以数组的形式返回数据集上的前n个元素

6.top(n):按默认或者指定的排序规则返回前n个元素，默认按降序输出

7.takeOrdered(n,[ordering]): 按自然顺序或者指定的排序规则返回前n个元素

例1：

def main(args: Array[String]) {

    val conf = new SparkConf().setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(1 to 10,2)

    val reduceRDD = rdd.reduce(_ + _)

    val reduceRDD1 = rdd.reduce(_ - _) //如果分区数据为1结果为 -53

    val countRDD = rdd.count()

    val firstRDD = rdd.first()

    val takeRDD = rdd.take(5)    //输出前个元素

    val topRDD = rdd.top(3)      //从高到底输出前三个元素

    val takeOrderedRDD = rdd.takeOrdered(3)    //按自然顺序从底到高输出前三个元素

    println("func +: "+reduceRDD)

    println("func -: "+reduceRDD1)

    println("count: "+countRDD)

    println("first: "+firstRDD)

    println("take:")

    takeRDD.foreach(x => print(x +" "))

    println("\ntop:")

    topRDD.foreach(x => print(x +" "))

    println("\ntakeOrdered:")

    takeOrderedRDD.foreach(x => print(x +" "))

    sc.stop

  }

输出：

func +:

func -:  //如果分区数据为1结果为 -53

count:

first:

take:

top:

takeOrdered:

(RDD依赖图：红色块表示一个RDD区，黑色块表示该分区集合，下同)

（RDD依赖图）

8.countByKey():作用于K-V类型的RDD上，统计每个key的个数，返回(K,K的个数)

9.collectAsMap():作用于K-V类型的RDD上，作用与collect不同的是collectAsMap函数不包含重复的key，对于重复的key。后面的元素覆盖前面的元素

10.lookup(k)：作用于K-V类型的RDD上，返回指定K的所有V值

例2：

 def main(args: Array[String]) {

    val conf = new SparkConf().setMaster("local").setAppName("KVFunc")

    val sc = new SparkContext(conf)

    val arr = List(("A", 1), ("B", 2), ("A", 2), ("B", 3))

    val rdd = sc.parallelize(arr,2)

    val countByKeyRDD = rdd.countByKey()

    val collectAsMapRDD = rdd.collectAsMap()

    println("countByKey:")

    countByKeyRDD.foreach(print)

    println("\ncollectAsMap:")

    collectAsMapRDD.foreach(print)

    sc.stop

  }

输出：

countByKey:

(B,)(A,)

collectAsMap:

(A,)(B,)

（RDD依赖图）

11.aggregate(zeroValue:U)(seqOp:(U,T) => U,comOp(U,U) => U):

seqOp函数将每个分区的数据聚合成类型为U的值，comOp函数将各分区的U类型数据聚合起来得到类型为U的值

def main(args: Array[String]) {

    val conf = new SparkConf().setMaster("local").setAppName("Fold")

    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(List(1,2,3,4),2)

    val aggregateRDD = rdd.aggregate(2)(_+_,_ * _)

    println(aggregateRDD)

    sc.stop

  }

输出：

步骤1：分区1：zeroValue+1+2=5 分区2：zeroValue+3+4=9

步骤2：zeroValue*分区1的结果*分区2的结果=90

（RDD依赖图）

12.fold(zeroValue:T)(op:(T,T) => T):通过op函数聚合各分区中的元素及合并各分区的元素，op函数需要两个参数，在开始时第一个传入的参数为zeroValue,T为RDD数据集的数据类型，，其作用相当于SeqOp和comOp函数都相同的aggregate函数

例3

def main(args: Array[String]) {

    val conf = new SparkConf().setMaster("local").setAppName("Fold")

    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(Array(("a", 1), ("b", 2), ("a", 2), ("c", 5), ("a", 3)), 2)

    val foldRDD = rdd.fold(("d", 0))((val1, val2) => { if (val1._2 >= val2._2) val1 else val2

    })

    println(foldRDD)

  }

输出：

c,5

其过程如下：

1.开始时将(“d”,0)作为op函数的第一个参数传入，将Array中和第一个元素("a",1)作为op函数的第二个参数传入，并比较value的值，返回value值较大的元素

2.将上一步返回的元素又作为op函数的第一个参数传入，Array的下一个元素作为op函数的第二个参数传入，比较大小

3.重复第2步骤

每个分区的数据集都会经过以上三步后汇聚后再重复以上三步得出最大值的那个元素，对于其他op函数也类似，只不过函数里的处理数据的方式不同而已

（RDD依赖图）

13.saveAsFile(path:String):将最终的结果数据保存到指定的HDFS目录中

14.saveAsSequenceFile(path:String):将最终的结果数据以sequence的格式保存到指定的HDFS目录中

例子源码地址：https://github.com/Mobin-F/SparkExample/tree/master/src/main/scala/com/mobin/SparkRDDFun/TransFormation/Action

Spark常用函数讲解之Action操作的更多相关文章

Spark常用函数讲解之键值RDD转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Trans ...
spark 常用函数介绍（python）
以下是个人理解,一切以官网文档为准. http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前,我先介绍一下,RDD是什么? ...
Spark RDD概念学习系列之action操作
不多说,直接上干货! action操作
Spark常用函数（源码阅读六）
源码层面整理下我们常用的操作RDD数据处理与分析的函数,从而能更好的应用于工作中. 连接Hbase,读取hbase的过程,首先代码如下: def tableInitByTime(sc : SparkC ...
CI框架常用函数（AR数据库操作的常用函数）
用户手册地址:http://codeigniter.org.cn/user_guide/index.html 1.查询表记录$this->db->select(); //选择查询的字段$t ...
四、spark常用函数说明学习
1.parallelize 并行集合,切片数.默认为这个程序所分配到的资源的cpu核的个数. 查看大小:rdd.partitions.size sc.paraliel ...
Opencv常用函数讲解
1.approxPolyDP(Mat(ps), poly, 5, true);//根据点集,拟合出多边形 2.fillConvexPoly(mask, Mat(ps), Scalar(255));根据 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transform ...

随机推荐

Css实现垂直水平居中的六种方法
经常在项目中用到,今天总结了一下: 演示地址:http://codepen.io/anon/pen/xGdpOa 以下两个类为公共类,便于更好的显示效果,非核心代码 .common{ width: 6 ...
【leetcode】Merge Sorted Array（合并两个有序数组到其中一个数组中）
题目: Given two sorted integer arrays A and B, merge B into A as one sorted array. Note: You may assum ...
Java 学习第一天
java 学习路线 http://edu.csdn.net/main/studyline/heimaline.html?flz java 学习视频 —— 马士兵:毕向东
[RxJS] Creating Observable From Scratch
Get a better understanding of the RxJS Observable by implementing one that's similar from the ground ...
如何实现带照片缩略图的Listview
ackage com.demo; import java.util.ArrayList; import android.app.Activity; import android.content.Con ...
c#、sql数据库备份还原
1.在项目中添加SQLDmo dll文件引用(SQLDMO(SQL Distributed Management Objects,SQL分布式管理对象)) 2在相应页面加using SQLDMO引用 ...
FTS下载地址
http://download.microsoft.com/download/5/2/e/52e22b90-2ba7-427b-9ea4-604d3b37a2e7/vs2012_tfs_chs.iso
WebApi2官网学习记录---异常处理
HttpResponseException 当WebAPI的控制器抛出一个未捕获的异常时,默认情况下,大多数异常被转为status code为500的http response即服务端错误. Http ...
win8 安装myeclipse 失败 MyEclipse ForSpring 安装失败
好像是main方法.jar无法载入之类的.. 可能是权限的问题哦.. 使用管理员权限试一下..
使用Flex 和 Red5开发简单视频直播功能
Flex 是一个高效.免费的开源框架,可用于构建具有表现力的 Web应用程序,这些应用程序利用Adobe Flash Player和Adobe AIR, 可以实现跨浏览器.桌面和操作系统.虽然只能使用 ...

Spark常用函数讲解之Action操作

Spark常用函数讲解之Action操作的更多相关文章

随机推荐

热门专题