RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念, 它是一种有容错机制 的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作. RDD 是只读的,不可变的数据集.RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算子和分区,可以重新生成. RDD 实现分布式数据集容错方法有两种:数据检查点和记录更新.同时RD…