有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中.那么我们先说一下mapreduce的shuffle过程. Mapreduce的shuffle的计算过程是在executor中划分mapper与reducer.Spark的Shuffling中有两个重要的压缩参数.spark.shuffle.compress true---是否将会将shuffle中outputs的过程进行压缩.将spark.io.compr…