mapPartitions操作与 map类似,只不过映射的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器,如果映射过程需要频繁创建额外的对象,使用mapPartitions操作要比map操作效率高效许多。比如将RDD中的所有数据通过JDBC链接写入数据库,如果使用map函数,可能要为每个元素创建一个connection,开销很大。如果使用mapPartitions,那么只需要针对一个分区建立connection.

Scala中的yield的主要作用是记住每次迭代中的有关值,并逐一存入到一个数组中。

for {子句} yield {变量或表达式}

scala> val numrdd=sc.makeRDD(1 to 10,3)

numrdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[51] at makeRDD at <console>:25

scala> def sumn(iter:Iterator[Int])={val aa=for(i<-iter) yield i*2;aa.toIterator}

sumn: (iter: Iterator[Int])Iterator[Int]

scala> numrdd.mapPartitions(sumn).collect

res49: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)

-----------------------------------------------

分区中的数值求和

scala> val numRDD=sc.makeRDD(1 to 10,3)
numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[210] at makeRDD at <console>:25

scala> numRDD.mapPartitions(x=>{val result=List(); var i=0;while(x.hasNext){i+=x.next()};result.::(i).toIterator}).collect
res136: Array[Int] = Array(6, 15, 34)

scala> numRDD.mapPartitions(x=>{

val result=List();

var i=0;

while(x.hasNext)

{

i+=x.next()

};

result.::(i).toIterator

}

).collect
res136: Array[Int] = Array(6, 15, 34)

-------------------------------------------------------------

scala> val numRDD=sc.makeRDD(1 to 10,3)

numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24

scala> def partionsum(iter:Iterator[Int])={var result=List[Int]();var i:Int= 0;while(iter.hasNext){var n:Int=iter.next; i += n;} ;result.::(i).toIterator}
partionsum: (iter: Iterator[Int])Iterator[Int]

scala> def partionsum(iter:Iterator[Int])={

var result=List[Int]();

var i:Int= 0;

while(iter.hasNext){

var n:Int=iter.next;

i += n;

} ;

result.::(i).toIterator

}
partionsum: (iter: Iterator[Int])Iterator[Int]

scala> numRDD.mapPartitions(partionsum).collect

res7: Array[Int] = Array(6, 15, 34)

--------------------------------------

分区内的数值进行求和,并展示分区号

scala> val numRDD=sc.makeRDD(1 to 10,3)

numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24

scala> numRDD.mapPartitionsWithIndex((x,iter)=>{val result=List(); var i=0;while(iter.hasNext){i+=iter.next()};result.::(x+"|"+i).toIterator}).collect
res138: Array[String] = Array(0|6, 1|15, 2|34)

scala> numRDD.mapPartitionsWithIndex((x,iter)=>{

val result=List();

var i=0;

while(iter.hasNext){

i+=iter.next()

};

result.::(x+"|"+i).toIterator

}).collect

res138: Array[String] = Array(0|6, 1|15, 2|34)

------------------------------

scala> val numRDD=sc.makeRDD(1 to 10,3)

numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24

scala> def partionwithindexsum(x:Int,iter:Iterator[Int])={var result=List[Int]();var i:Int= 0;while(iter.hasNext){var n:Int=iter.next; i += n;} ;result.::(x+"|"+i).toIterator} partionwithindexsum: (x: Int, iter: Iterator[Int])Iterator[Any]

scala> def partionwithindexsum(x:Int,iter:Iterator[Int])={

var result=List[Int]();

var i:Int= 0;

while(iter.hasNext){

var n:Int=iter.next;

i += n;

} ;

result.::(x+"|"+i).toIterator

}

partionwithindexsum: (x: Int, iter: Iterator[Int])Iterator[Any]

scala> numRDD.mapPartitionsWithIndex(partionwithindexsum).collect

res9: Array[Any] = Array(0|6, 1|15, 2|34)

----------------------

统计每个分区的元素数

scala> val numRDD=sc.makeRDD(1 to 10,3)

numRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24

scala> def partionwithindexlength(x:Int,iter:Iterator[Int])={var result=List[Int]();var i:Int= iter.toList.length;result.::(x+"|"+i).toIterator}

partionwithindexlength: (x: Int, iter: Iterator[Int])Iterator[Any]

scala> def partionwithindexlength(x:Int,iter:Iterator[Int])={

var result=List[Int]();

var i:Int= iter.toList.length;

result.::(x+"|"+i).toIterator

}

partionwithindexlength: (x: Int, iter: Iterator[Int])Iterator[Any]

scala> numRDD.mapPartitionsWithIndex(partionwithindexlength).collect

res10: Array[Any] = Array(0|3, 1|3, 2|4)

mapPartitions的更多相关文章

  1. map与mapPartitions

    区别在于sc.map是将RDD下的所有行数据统计处理.而sc.mapPartitions是按RDD分区进行数据统计处理. 测试一下: val data = sc.parallelize(1 to 6, ...

  2. spark小技巧-mapPartitions

    与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作.如果在map过程中需要频繁创建额外的 ...

  3. spark中map与mapPartitions区别

    在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 import org.apache.spark.{SparkConf, SparkContext ...

  4. Spark 学习笔记之 map/flatMap/filter/mapPartitions/mapPartitionsWithIndex/sample

    map/flatMap/filter/mapPartitions/mapPartitionsWithIndex/sample:

  5. spark map和mapPartitions的区别

    package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.Arra ...

  6. java实现spark常用算子之mapPartitions

    import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

  7. Spark API 之 map、mapPartitions、mapValues、flatMap、flatMapValues详解

    原文地址:https://blog.csdn.net/helloxiaozhe/article/details/80492933 1.创建一个RDD变量,通过help函数,查看相关函数定义和例子: & ...

  8. spark中map和mapPartitions算子的区别

    区别: 1.map是对rdd中每一个元素进行操作 2.mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1.若是普通map,比如一个par ...

  9. Spark算子--mapPartitions和mapPartitionsWithIndex

    mapPartitions--Transformation类算子 代码示例 result   mapPartitionsWithIndex--Transformation类算子 代码示例 result ...

随机推荐

  1. BlockingQueue队列

    1.BlockingQueue定义的常用方法如下     抛出异常 特殊值 阻塞 超时 插入 add(e) offer(e) put(e) offer(e,time,unit) 移除 remove() ...

  2. 直接突破百度网盘,用IDM或者迅雷下载。

    直接突破百度网盘,用IDM或者迅雷下载.推荐浏览器: 360 ,CHORME360,: 打开网盘下载页,然后F12→找到CONSOLE→刷新→输入代码“Object.defineProperty(th ...

  3. 【事务隔离级别】数据库事务隔离级别-UNDERSTANDING ISOLATION LEVELS

    参考链接:ISOLATION LEVELS ISOLATION LEVELS In a database system, concurrent transactions are processed i ...

  4. 【RMI】使用Java反射机制实现RMI

    主要包括如下类 RMIBeansManager.java RMIDemo.java RMIService.java RMIVO.java SayHello.java RMIVO.java packag ...

  5. bzoj4480: [Jsoi2013]快乐的jyy

    [问题描述] 给定两个字符串A和B,表示JYY的两个朋友的名字.我们用A(i,j)表示A 字符串中从第i个字母到第j个字母所组成的子串.同样的,我们也可以定义B(x,y). JYY发现两个朋友关系的紧 ...

  6. [转]Android 代码自动提示功能

    源地址http://blog.sina.com.cn/s/blog_7dbac12501019mbh.html 或者http://blog.csdn.net/longvslove/article/de ...

  7. [UE4]扔枪

    1.把枪Detach掉:DetachFromActor 3个都选择“Keep World” 2.模拟物理 3.给一个向前的速度 4.切枪,到上一个武器,或者捡起脚底下的武器 注意Get Compone ...

  8. CRM stringmap

    CREATE view [dbo].[V_stringmap] as SELECT DISTINCT Entity.Name as tablename,StringMap.AttributeName ...

  9. 【TensorFlow学习笔记 】name_socpe variable_scope

    [引言]TensorFlow中的命名域是非常重要的概念,涉及到参数共享,方便命名参数管理,定义图结构 本文主要介绍name_scope 和 variable_scope,slim包中的arg_scop ...

  10. Eclipse中Activiti插件的安装

    要想使用Activiti流程引擎,需要在Eclipse安装Activiti插件,才能画流程设计图. 打开Eclipse,点击help -> Install new Software 然后点击 A ...