简介 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Resilient:弹性,它表示的含义rdd的数据是可以保存在内存中或者是磁盘中. Distributed:它的数据是分布式存储的,后期方便于进行分布式计算. Dataset:它就是一个集合,集合里面可以存放了很多个元素. RDD的属性 1 A list of partitions 一个分区列表,在这里表示一个rd…