RDD是Spark最基本,也是最根本的数据抽象.http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文.如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现. 第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集.RDD是只读的.分区记录的…