MapPartition和Map的区别

2024-10-24 15:14:53 原文

在Spark中有map和mapPartitions算子，处理数据上，有一些区别

主要区别：

map是对rdd中的每一个元素进行操作；

mapPartitions则是对rdd中的每个分区的迭代器进行操作

MapPartitions的优点：

如果是普通的map，比如一个partition中有1万条数据。ok，那么你的function要执行和计算1万次。

使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有
的partition数据。只要执行一次就可以了，性能比较高。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。

SparkSql或DataFrame默认会对程序进行mapPartition的优化。

MapPartitions的缺点：

如果是普通的map操作，一次function的执行就处理一条数据；那么如果内存不够用的情况下，比如处理了1千条数据了，那么这个时候内存不够了，那么就可以将已经处理完的1千条数据从内存里面垃圾回收掉，或者用其他方法，腾出空间来吧。
所以说普通的map操作通常不会导致内存的OOM异常。

但是MapPartitions操作，对于大量数据来说，比如甚至一个partition，100万数据，
一次传入一个function以后，那么可能一下子内存不够，但是又没有办法去腾出内存空间来，可能就OOM，内存溢出。

实现将每个数字变成原来的2倍的功能

def main(args: Array[String]): Unit = {

  var conf = new SparkConf().setMaster("local[*]").setAppName("partitions")

  var sc   = new SparkContext(conf)

  println("1.map--------------------------------")

  var aa   = sc.parallelize(1 to 9, 3)

  def doubleMap(a:Int) : (Int, Int) = { (a, a*2) }

  val aa_res = aa.map(doubleMap)

  println(aa.getNumPartitions)

  println(aa_res.collect().mkString)

  println("2.mapPartitions-------------------")

  val bb = sc.parallelize(1 to 9, 3)

  def doubleMapPartition( iter : Iterator[Int]) : Iterator[ (Int, Int) ] = {

    var res = List[(Int,Int)]()

    while (iter.hasNext){

      val cur = iter.next()

      res .::= (cur, cur*2)

    }

    res.iterator

  }

  val bb_res = bb.mapPartitions(doubleMapPartition)

  println(bb_res.collect().mkString)

  println("3.mapPartitions-------------------")

  var cc = sc.makeRDD(1 to 5, 2)

  var cc_ref = cc.mapPartitions( x => {

    var result = List[Int]()

    var i = 0

    while(x.hasNext){

      val cur = x.next()

      result.::= (cur*2)

    }

    result.iterator

  })

  cc_ref.foreach(println)

}

运行结果：
1.map--------------------------------

3

(1,2)(2,4)(3,6)(4,8)(5,10)(6,12)(7,14)(8,16)(9,18)

2.mapPartitions-------------------

(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,14)

3.mapPartitions-------------------

4

2

10

8

6

MapPartition和Map的区别的更多相关文章

[源码解析]为什么mapPartition比map更高效
[源码解析]为什么mapPartition比map更高效目录 [源码解析]为什么mapPartition比map更高效 0x00 摘要 0x01 map vs mapPartition 1.1 ma ...
Java-list，set，map的区别
jdk中api的定义 Collection ├----List │ ├----LinkedList │ ├----ArrayList │ └----Vector │ └----Stack └----S ...
list和map的区别
list和map的区别 list-->list是对象集合,允许对象重复 map-->map是键值对的集合,不允许key重复
c++ list, vector, map, set 区别与用法比较
http://blog.csdn.net/alex_xhl/article/details/37692297 List封装了链表,Vector封装了数组, list和vector得最主要的区别在于ve ...
hash_map和map的区别
hash_map和map的区别分类: STL2008-10-15 21:24 5444人阅读评论(0) 收藏举报 class数据结构编译器存储平台tree 这里列几个常见问题,应该对你理解和使用 ...
Map的clear与new Map的区别
对于clear与new Map的区别.我们首先来看一个例子,本例子是我在实际开发中遇到的,需求就是讲map放入到list中,说白了就是list转map,有两种实现方式,分别是: // 方案一 Map& ...
Java集合：List、Set和Map的区别，ArrayList和LinkedList有何区别..........
一.数组和集合的区别: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型): 集合可以存储和操作数目不固定的一组数据. 所有的JAVA集合都位于 java.util包中! J ...
【转】STL中vector、list、deque和map的区别
1.vector 向量相当于一个数组在内存中分配一块连续的内容空间进行存储.支持不指定vector大小的存储.STL内部实现时,首先分配一个非常大的内存空间预备进行存储,即capacity()函数 ...
Java集合list,map,set区别及遍历
1.1 List.Set.Map基本区别 1.List,Set都是继承Collection接口,Map不是. 2.List:LinkedList.ArrayList.Vector Set :HashS ...

随机推荐

硬盘分区表知识——详解硬盘MBR
这片文章说得很详细,原文:http://hi.baidu.com/waybq/blog/item/3b8db64bef3dc7f583025c66.html --------------------- ...
Oracle ddl 和 dml 操作
ddl 操作窗口设置用户权限的方法 Oracle的数据类型按住Ctrl点击表名 ,可以鼠标操作插入的数据需要满足创建表的检查主表clazz删除数据从表设置级联也会一同删除有约束也 ...
vue父子组件之间的传值
引入组件父组件 <div> <form-edit></form-edit> </div> import FormEdit from "路径& ...
node引入bootstrap npm报错
今天node引入bootstrap npm报错但是页面正常显示最后发现bootstrap.min.js.map没有放在文件里虽然不用页面中引入另外也发现了怎么看这种错误了
C++编译器是如何管理类和对象的，类的成员函数和成员变量
C++中的class从面向对象理论出发,将变量(属性)和函数(方法)集中定义在一起,用于描述现实世界中的类.从计算机的角度,程序依然由数据段(栈区内存)和代码段(代码区内存)构成. #include ...
仓位 001 998 AUFNAHME不存在（L9009）
测试做一个物料库存561初始化时,库位是上启用了WM的.提示“C01 998 AUFNAHME 不存在”,998 库存余额的初始条目是缺省的存储类型.用LS25在正式系统中,CO1 998下有AUF ...
（1-1）入门—最简单的树（使用json数据）
1.<!DOCTYPE html>是必须的. 2.zTree 的容器 className 别忘了设置为 "ztree". 使用ztree创建树,首先要引用ztree相关 ...
linux 命令 uniq
linux命令uniq去重实例详细说明linux下去除重复行命令uniq 一,uniq干什么用的文本中的重复行,基本上不是我们所要的,所以就要去除掉.linux下有其他命令可以去除重复行,但是我觉 ...
vue-网易云音乐
vuejs仿写网易云音乐webapp 1.项目API来源 2.项目地址 3.项目主要截图 4.功能音乐播放,搜索及主要页面的展示,用户登录部分及登录后才能获取的数据还未实现 5.技术 ...
java 加载并读取Properties 文件
1 .系统自带的application.properties (以下代码仅供参考,不能粘贴复制) 假设application.properties文件有下面两个值: come.test.name = ...