spark算子篇-repartition and coalesce

我们知道 RDD 是分区的，但有时候我们需要重新设置分区数量，增大还是减少需要结合实际场景，还有可以通过设置 RDD 分区数来指定生成的文件的数量

重新分区有两种方法：repartition and coalesce

先看源代码

def repartition(self, numPartitions):

        """

         Return a new RDD that has exactly numPartitions partitions.

         Can increase or decrease the level of parallelism in this RDD.

         Internally, this uses a shuffle to redistribute data.

         If you are decreasing the number of partitions in this RDD, consider

         using `coalesce`, which can avoid performing a shuffle.

         >>> rdd = sc.parallelize([1,2,3,4,5,6,7], 4)

         >>> sorted(rdd.glom().collect())

         [[1], [2, 3], [4, 5], [6, 7]]

         >>> len(rdd.repartition(2).glom().collect())

         2

         >>> len(rdd.repartition(10).glom().collect())

         10

        """

        return self.coalesce(numPartitions, shuffle=True)

    def coalesce(self, numPartitions, shuffle=False):

        """

        Return a new RDD that is reduced into `numPartitions` partitions.

        >>> sc.parallelize([1, 2, 3, 4, 5], 3).glom().collect()

        [[1], [2, 3], [4, 5]]

        >>> sc.parallelize([1, 2, 3, 4, 5], 3).coalesce(1).glom().collect()

        [[1, 2, 3, 4, 5]]

        """

        if shuffle:

            # Decrease the batch size in order to distribute evenly the elements across output

            # partitions. Otherwise, repartition will possibly produce highly skewed partitions.

            batchSize = min(10, self.ctx._batchSize or 1024)

            ser = BatchedSerializer(PickleSerializer(), batchSize)

            selfCopy = self._reserialize(ser)

            jrdd_deserializer = selfCopy._jrdd_deserializer

            jrdd = selfCopy._jrdd.coalesce(numPartitions, shuffle)

        else:

            jrdd_deserializer = self._jrdd_deserializer

            jrdd = self._jrdd.coalesce(numPartitions, shuffle)

        return RDD(jrdd, self.ctx, jrdd_deserializer)

我们看到 repartition 最终是调用了 coalesce 方法，并且把 coalesce 的参数 shuffle 设置成 True；

所以搞懂了 coalesce，也就搞懂了 repartition

如果是生成一个窄依赖的结果，无需 shuffle，比如 1000个分区重新分成10个分区；

窄依赖：一个父RDD的分区对应一个子RDD的分区，或者多个父RDD的分区对应一个子RDD的分区；

宽依赖：一个父RDD的分区对应多个子RDD的分区；

如果分区数量变化巨大，如设置 numPartition=1，这可能造成运行计算的节点比你想象的少，为了避免这种情况，可以设置 shuffle=True ；

此外，如果需要增加分区数，shuffle 设置成 False 时，并不会进行重分区，只有设置成 True 才可以；

也就是说，repartition 是特殊的 coalesce，相当于把 coalesce 的参数 shuffle 写死成 True 了

小结一下：

减少分区时，一般无需 shuffle，二者皆可，

增加分区时，需要 shuffle，一般用 repartition，因为方便

参考资料：

https://www.cnblogs.com/fillPv/p/5392186.html

spark算子篇-repartition and coalesce的更多相关文章

Spark算子篇 --Spark算子之aggregateByKey详解
一.基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值. seqFunc代表combine的聚合逻 ...
Spark算子篇 --Spark算子之combineByKey详解
一.概念 rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:& ...
spark算子篇-aggregate 系列
aggregate aggregate 是比较常用的行动操作,不是很好懂,这里做个解释. aggregate(zeroValue, seqOp, combOp) zeroValue 是一个初始值, ...
大数据学习day23-----spark06--------1. Spark执行流程（知识补充：RDD的依赖关系）2. Repartition和coalesce算子的区别 3.触发多次actions时，速度不一样 4. RDD的深入理解（错误例子，RDD数据是如何获取的）5 购物的相关计算
1. Spark执行流程知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖窄依赖指的是 ...
Spark源码系列:RDD repartition、coalesce 对比
在上一篇文章中 Spark源码系列:DataFrame repartition.coalesce 对比对DataFrame的repartition.coalesce进行了对比,在这篇文章中,将会对R ...
Spark源码系列:DataFrame repartition、coalesce 对比
在Spark开发中,有时为了更好的效率,特别是涉及到关联操作的时候,对数据进行重新分区操作可以提高程序运行效率(很多时候效率的提升远远高于重新分区的消耗,所以进行重新分区还是很有价值的).在Spark ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子代码实践
package com.dingxin.datainit import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.Spa ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...

随机推荐

python 语音输入
# 系统客户端包 import win32com.client speaker = win32com.client.Dispatch("SAPI.SPVOICE") # 系统接口 ...
hdu5492
hdu5492 陈大哥的毒瘤题T1 题意: 差不多就是根据题意推式子,求最小方差. 解法: 首先,可以观察到,如果我们直接暴力去取平均数,很大概率会取出来小数,所以一个很直观的想法就是把平均数从式子里 ...
Java并发指南开篇：Java并发编程学习大纲
Java并发编程一直是Java程序员必须懂但又是很难懂的技术内容. 这里不仅仅是指使用简单的多线程编程,或者使用juc的某个类.当然这些都是并发编程的基本知识,除了使用这些工具以外,Java并发编程中 ...
Redis 4.x RCE 复现学习
攻击场景: 能够访问远程redis的端口(直接访问或者SSRF) 对redis服务器可以访问到的另一台服务器有控制权实际上就是通过主从特性来同步传输数据,同时利用模块加载来加载恶意的用来进行命令执 ...
Java学习回顾总结
java-01初识Java见上一篇 Java-02 1.命名规范与规范: 标识符命名规则:首字母为字母|下划线|$ 其余部分数字|字母|下划线|$ 命名规范: 变量属性方法命名规范:第一个单词首字母小 ...
Netfilter 之连接跟踪的helper
注册helper nf_conntrack_ftp_init是连接跟踪ftp模块的初始化函数,可以看到其调用了nf_conntrack_helpers_register来注册helper: stati ...
docker部署多个mysql容器，并使用java连接
测试springboot多个数据源配置时,需要安装多个mysql容器,由于资源限制,当前只有一台虚拟机,如果在一台机器上安装多个mysql实例,是可以的,但步骤比较繁琐,使用docker来安装MySQ ...
SRCNN代码分析
代码是作者页面上下载的matlab版.香港中文大学汤晓鸥教授.Learning a Deep Convolutional Network for Image Super-Resolution. htt ...
各种集合key，value能否为null
转: 各种集合key,value能否为null 2019年03月12日 13:22:58 mingwulipo 阅读数 238 HashMap key,value都可以为null static f ...
Selenium 2自动化测试实战38（整合自动发邮件功能）
整合自动发邮件功能解决了前面的问题后,现在就可以将自动发邮件功能集成到自动化测试项目中了.下面重新编辑runtest.py文件 #runtest.py #coding:utf-8 from HTML ...

spark算子篇-repartition and coalesce

spark算子篇-repartition and coalesce的更多相关文章

随机推荐

热门专题