什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度 RDD支持两种操作:转化操作和行动操作 Spark采用惰性计算模式,RDD只有第一次在一个行动操作中用到时,才会真正计算 属性: 一组分区(Partition) 一个计算每个分区的函数 RDD之间的依…