Spark SQL在Spark内核基础上提供了对结构化数据的处理,在Spark1.3版本中,Spark SQL不仅可以作为分布式的SQL查询引擎,还引入了新的DataFrame编程模型。

  在Spark1.3版本中,Spark SQL不再是Alpha版本,除了提供更好的SQL标准兼容之外,还引进了新的组件DataFrame。同时,Spark SQL数据源API也实现了与新组件DataFrame的交互,允许用户直接通过Hive表、Parquet文件以及一些其他数据源生成DataFrame。用户可以在同一个数据集上混合使用SQL和DataFrame操作符。新版本还提供了从JDBC读写表的能力,可以更原生地支持Postgres、MySQL及其他RDBMS系统。

  Spark SQL所有功能的入口点是SQLContext,或它的一个子类。只需要一个SparkContext实例就可以构建一个基本的SQLContext。

package cn.spark.study.sql

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext

/**
* @author Administrator
*/
object DataFrameCreate {

def main(args: Array[String]) {
val conf = new SparkConf()
.setAppName("DataFrameCreate")
.setMaster("local");
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)

// val df = sqlContext.read.json("hdfs://spark1:9000/students.json")//从hdfs

// val df = sqlContext.read.json("./data/people.json")
val df = sqlContext.read.json("./data/aa.json")
//Spark DataFrame小试牛刀,见https://segmentfault.com/a/1190000002614456
//Spark DataFrames入门指南:创建和操作DataFrame,见http://blog.csdn.net/lw_ghy/article/details/51480358
//创建dataframe ,就是把数据 和数据元封装一起 形成一个数据表。
//spark DataFrame用法,见http://blog.csdn.net/dreamer2020/article/details/51284789
//RDD与DataFrame的转换,见http://www.cnblogs.com/namhwik/p/5967910.html

df.show()

}

}

//输入
//{"name":"Michael"}
//{"name":"Andy", "age":30}
//{"name":"Justin", "age":19}

//输出
//+----+-------+
//| age| name|
//+----+-------+
//|null|Michael|
//| 30| Andy|
//| 19| Justin|
//+----+-------+

//输入
//{"name":"中国","provinces":[{"name":"黑龙江","citys":["佳木斯","大庆","哈尔滨","齐齐哈尔","牡丹江"]},{"name":"辽宁","citys":["沈阳","大连","盘锦"]},{"name":"吉林","citys":["吉林市","长春市","四平市"]}]}

//输出
//+----+--------------------+
//|name| provinces|
//+----+--------------------+
//| 中国|[[WrappedArray(佳木...|
//+----+--------------------+

  再次强调,spark-shell除了帮我们构建了SQLContext实例外,还帮我们导入了隐式转换:import sqlContext.implicits._。在以spark-submit方式提交的应用程序中,需要手动导入该隐式转换才能访问某些API。

  DataFrame编程模型极大地简化了Spark SQL的编程复杂度。

  Spark SQL允许Spark执行用SQL语言,HiveQL语言或者Scala语言表示的关系查询。在Spark1.3之前,这个模块的核心是SchemaRDD类型。SchemaRDD由行(Row)对象组成,行对象通过scheme来描述行中每一列的数据类型。

  而在Spark1.3中,开始引入了DataFrame来重命名SchemaRDD类型,在Spark1.3中,DataFrame是一个以命名列方式组织的分布式数据集,在概念上类似于关系型数据库中的一个表,也相当于R/Python中的Dta Frames。DataFrame可以由结构化数据文件转换得到,或从Hive中的表得来,也可以转换自外部数据库或现有的RDD。

  DataFrame编程模型具有的功能特性有:

  1、从KB到PB级的数据量支持

  2、多种数据格式和多种存储系统支持

  3、通过Spark SQL的Catalyst优化器进行先进的优化,生成代码

  4、位Python、Java、Scala和R语言(Spark R)提供API。

DataFrame编程模型初谈与Spark SQL的更多相关文章

  1. Spark SQL 编程API入门系列之Spark SQL支持的API

    不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/Hive ...

  2. Spark SQL 编程API入门系列之Spark SQL的作用与使用方式

    不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark ...

  3. DataFlow编程模型与Spark Structured streaming

    流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...

  4. Spark SQL 之 DataFrame

    Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...

  5. 【转载】Spark SQL 1.3.0 DataFrame介绍、使用

    http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1 1.DataFrame是什么?2.如何创建DataF ...

  6. spark结构化数据处理:Spark SQL、DataFrame和Dataset

    本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...

  7. 转】Spark SQL 之 DataFrame

    原博文出自于: http://www.cnblogs.com/BYRans/p/5003029.html 感谢! Spark SQL 之 DataFrame 转载请注明出处:http://www.cn ...

  8. Spark SQL 编程API入门系列之SparkSQL数据源

    不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的 ...

  9. Spark SQL 官方文档-中文翻译

    Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...

随机推荐

  1. [luoguP1373] 小a和uim之大逃离(DP)

    传送门 题解 代码 #include <cstdio> #include <iostream> #define N 802 #define mod 1000000007 int ...

  2. [luoguP3690] 【模板】Link Cut Tree

    传送门 处理路径 xor 和的时候可以维护子树 xor 和,先提取出路径,再把一个点 splay 到最上方,直接取子树 xor 和即可. 更新一个点权时可以先提取出根到这个点的路径,把这个点 spla ...

  3. F - Experienced Endeavour 矩阵快速幂

    Alice is given a list of integers by Bob and is asked to generate a new list where each element in t ...

  4. kendo grid 点击新增没有反映

    在datasource中缺少 editable: "inline",这一行

  5. poj—— 3037 Saving Beans

    Saving Beans Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Tot ...

  6. [bzoj 1041][HAOI2008]圆周上的整点(枚举)

    题目:http://www.lydsy.com/JudgeOnline/problem.php?id=1041 分析:实质上是求(a,b,c)勾股数的个数,其中c是确定的. 对于勾股数有一组通式: a ...

  7. Ubuntu 16.04解决在虚拟终端(Ctrl+Alt+F1)下显示菱形中文乱码问题

    在安装Ubuntu时,如果默认选择了中文,那么以后进去到虚拟终端就会出现菱形的中文乱码. 其实这个是无解的,但是可以通过以下技巧去实现: 1.把系统转成英文的 sudo gedit /etc/defa ...

  8. Android GIS开发系列-- 入门季(1) 起点

    前言 这个系列,待最终完成更新,大家体谅点,第一版本全部是参考的网络教程,最近会逐步的细化更新为可以直接使用的情况. 本系列的开发基于AS (  Android Studio ), 和ArcGIS 的 ...

  9. Java实现打印功能-AWT Graphics2D

    Java实现打印功能 用java实现打印,java.awt中提供了一些打印的API,要实现打印,首先要获得打印对象,然后继承Printable实现接口方法print,以便打印机进行打印,最后用用Gra ...

  10. POJ 2104 K-th Number(区间第k大数)(平方切割,归并树,划分树)

    题目链接: http://poj.org/problem? id=2104 解题思路: 由于查询的个数m非常大.朴素的求法无法在规定时间内求解. 因此应该选用合理的方式维护数据来做到高效地查询. 假设 ...