我们知道 RDD 是分区的,但有时候我们需要重新设置分区数量,增大还是减少需要结合实际场景,还有可以通过设置 RDD 分区数来指定生成的文件的数量 重新分区有两种方法:repartition and coalesce 先看源代码 def repartition(self, numPartitions): """ Return a new RDD that has exactly numPartitions partitions. Can increase or decreas
RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个弹性的.不可变.可分区.里面的元素可并行计算的集合. A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable:可类比String,它也是不可变的,但是可有很多方法,如切分... 1. RDD的属性 每