本篇博客中的操作都在 ./bin/pyspark 中执行. RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的核心抽象.RDD是分布式元素的集合,对手的所有操作都可以概括为: 创建RDD 转化已有RDD 调用RDD操作进行求值 在这些操作中,Spark会自动将RDD中的数据分发的集群上,并将操作自动化执行. 每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上. Get Started 用户可以: 读取一个外部数据集 或者使用对…