一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for large-scale data processing. 主要的特性有: Speed:快如闪电(HADOOP的100倍+) Easy to Use:Scala——Perfect.Python——Nice.Java——Ugly.R Generality:Spark内核上可以跑Spark SQL.Spark S…