弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的.RDD是一个容错的.可以被并行操作的元素集合.创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合:从外部存储系统中引用一个数据集.RDD的一大特性是分布式存储,分布式存储在最大的好处是可以让数据在不同工作节点并行存储,以便在需要数据时并行运算.弹性指其在节点存储时,既可以使用内存,也可已使用外存,为使用者进行大数据处理提供方便.除此之外,RDD的另一大特性是延迟计算,即一个完整的RDD运行任务被分为两部分:Tran…