Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外乎创建 RDD.转化已有 RDD 以及调用 RDD 操作进行求值.而在这一切背后,Spark 会自动将RDD 中的数据分发到集群上,并将操作并行化执行. 一.RDD基础 Spark 中的 RDD 就是一个不可变的分布式对象集合.每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上.RDD…