spark中map与mapPartitions区别

在spark中，map与mapPartitions两个函数都是比较常用，这里使用代码来解释一下两者区别

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ArrayBuffer

object MapAndPartitions {

  def main(args: Array[String]): Unit = {

    val sc = new SparkContext(new SparkConf().setAppName("map_mapPartitions_demo").setMaster("local"))

    val arrayRDD =sc.parallelize(Array(1,2,3,4,5,6,7,8,9))

    //map函数每次处理一个/行数据

    arrayRDD.map(element=>{

      element

    }).foreach(println)

    //mapPartitions每次处理一批数据

    //将 arrayRDD分成x批数据进行处理

    //elements是其中一批数据

    //mapPartitions返回一批数据（iterator）

    arrayRDD.mapPartitions(elements=>{

      var result = new ArrayBuffer[Int]()

      elements.foreach(element=>{

        result.+=(element)

      })

      result.iterator

    }).foreach(println)

  }

}

两个函数最终处理得到的结果是一样的

mapPartitions比较适合需要分批处理数据的情况，比如将数据插入某个表，每批数据只需要开启一次数据库连接，大大减少了连接开支，伪代码如下：

    arrayRDD.mapPartitions(datas=>{

      dbConnect = getDbConnect() //获取数据库连接

      datas.foreach(data=>{

        dbConnect.insert(data) //循环插入数据

      })

      dbConnect.commit() //提交数据库事务

      dbConnect.close() //关闭数据库连接

    })

spark中map与mapPartitions区别的更多相关文章

spark中map和mapPartitions算子的区别
区别: 1.map是对rdd中每一个元素进行操作 2.mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1.若是普通map,比如一个par ...
spark中map与flatMap的区别
作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了两者的区别主要在于action后得到的值例子: import org.apac ...
Spark中map与flatMap
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: def map(self, f, preservesPartitioning=False): &q ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
Spark API 之 map、mapPartitions、mapValues、flatMap、flatMapValues详解
原文地址:https://blog.csdn.net/helloxiaozhe/article/details/80492933 1.创建一个RDD变量,通过help函数,查看相关函数定义和例子: & ...
Java中Set Map List 的区别
java中set map list的区别: 都是集合接口简要说明 set --其中的值不允许重复,无序的数据结构 list --其中的值允许重复,因为其为有序的数据结构 map--成对的数据结构 ...
原 c++中map与unordered_map的区别
c++中map与unordered_map的区别头文件 map: #include < map > unordered_map: #include < unordered_map ...
Spark中ml和mllib的区别
转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功 ...
Scala中sortBy和Spark中sortBy区别
Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序,Spark中sortB ...

随机推荐

express之req res
request对象和response对象 Request req.baseUrl 基础路由地址 req.body post发送的数据解析出来的对象 req.cookies 客户端发送的cookies数 ...
linux下的nmap工具能干什么?
答:可以用来探测远程主机的操作系统类型,使用方法如下: nmap -A <ip address>
[十二省联考2019]异或粽子 01trie
[十二省联考2019]异或粽子 01trie 链接 luogu 思路首先求前k大的(xo[i]^xo[j])(i<j). 考场上只想到01trie,不怎么会写可持久,就写了n个01trie,和 ...
图解HTTP学习笔记
前言: 一直觉得自己在HTTP基础方面都是处于知其然,不知其所以然的样子.最近利用空闲时间拜读了一下图解HTTP,写篇博客记录一下读书笔记. TCP三次握手: ① 发送端首先发送一个带SYN标志的数据 ...
Java+selenium+feeder+AutoIt+自动加载插件
package dataproject.datapro; import static org.testng.Assert.assertEqualsNoOrder; import java.io.Fil ...
React文档（十九）不使用ES6
通常你会将一个React组件定义成一个普通的js类: class Greeting extends React.Component { render() { return <h1>Hell ...
angular配置路由/子页面+vue配置路由/子页面
1.在vue.js中组件可以复用,然后最近配置了几个子页面在这个文件中配置路由,子页面的配置跟其他一样,只不过path不同. routes: [ { path: '/', ...
weblogic安装部署ODM下jrules-res-xu-WL10.rar出现Can't find com.ibm.rules.res.xu.messages bundle异常
Windows: weblogic用户新建域文件夹里面,bin目录下找到setDomainEnv.cmd文件在set JAVA_OPTIONS=%JAVA_OPTIONS% 后面添加: " ...
【C/C++】数组 & 指针
int main() { ]; ]; ][]; ]; ]; ]; ][]; cout << sizeof(a) << endl; cout << sizeof(pa ...
在Debian9服务器上安装最新版Python
通过Xshell 6 远程连接linux服务器安装前的准备工作更新服务器: 命令:apt update && apt upgrade -y 安装python3的依赖库: 命令:ap ...

spark中map与mapPartitions区别

spark中map与mapPartitions区别的更多相关文章

随机推荐

热门专题