Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU.网络带宽.或者内存等.最常见的情况是,数据能装进内存,而瓶颈是网络带宽:当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存(storing RDDs in serialized form).本文将主要涵盖两个主题:1.数据序列化(这对于优化网络性能极为重要):2.减少内存占用以及内存调优.同时,我们也会提及其他几个比较小的主题. 数据序列化…