一.概述 从1.3版本开始Spark SQL不再是测试版本,之前使用的SchemaRDD重命名为DataFrame,统一了Java和ScalaAPI. SparkSQL是Spark框架中处理结构化数据的部分,提供了一种DataFrames的概念,同时允许在Spark中执行以SQL,HiveQL或Scala表示的关系型查询语句. 就易用性而言,对比传统的MapReduceAPI,说Spark的RDD API有了数量级的飞跃并不为过.然而,对于没有MapReduce和函数式编程经验的新手来说,RDD