导语 Spark2.0于2016-07-27正式发布,伴随着更简单.更快速.更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准.本文主要以代码和绘图的方式结合,对运行架构.RDD 的实现.spark 作业原理.Sort-Based Shuffle 的存储原理. Standalone 模式 HA 机制进行解析. 1.运行架构 Spark支持多种运行模式.单机部署下,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行:当以分布式集群部署的…