Spark为什么会比mapreduce快? 1.Spark减少了中间过程的磁盘读写,数据很多时候不需要落地,从而提升了效率. 2.Spark基于内存的读写,减少了磁盘IO.node数据交互的通信时间. 3.Spark并非mapreduce心跳的模式,任务调度性能比mapreduce快,适合迭代计算. 4.JVM的优化:Hadoop每次MapReduce操作,启动一个Task便会启动一次JVM,基于进程的操作.而Spark每次MapReduce操作是基于线程的,只在启动Executor是启动一次J…