记录自己学习研究 Spark 的探索过程,为后续总结奠定基础. 本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,下载对应的 Spark 版本. 图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack) 这里要先说BDAS(伯克利数据分析栈),是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈,这其中包括了这两年火的爆棚的Spark(Spark Core.Spark SQL.Spark Streaming.MLLi…