从Spark-1.2.0开始,Spark的Shuffle由Hash Based Shuffle升级成了Sort Based Shuffle.即Spark.shuffle.manager从Hash换成了Sort.不同形式的Shuffle逻辑主要是ShuffleManager的实现类不同. 在org.apache.spark.SparkEnv类中: // Let the user specify short names for shuffle managers val shortShuffleMgr…
在执行Spark应用程序的时候,driver会提供一个webUI给出应用程序的执行信息.可是该webUI随着应用程序的完毕而关闭port,也就是说,Spark应用程序执行完后,将无法查看应用程序的历史记录.Spark history server就是为了应对这样的情况而产生的.通过配置,Spark应用程序在执行完应用程序之后,将应用程序的执行信息写入指定文件夹.而Spark history server能够将这些执行信息装载并以web的方式供用户浏览. 要使用history serv…