Spark SQL External DataSource简介

随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。这使得Spark SQL支持了更多的类型数据源，如json, parquet, avro, csv格式。只要我们愿意，我们可以开发出任意的外部数据源来连接到Spark SQL。

示例：存储json数据。

CREATE TEMPORARY TABLE jsonTable

USING org.apache.spark.sql.json

OPTIONS (

  path '/path/to/data.json'

)

详细示例：
1. DDL创建外部数据资源表jsonTable

scala> import org.apache.spark.sql.SQLContext

scala> import sqlContext._

//创建jsonTable外部数据源表，并且指定其数数据源文件是people.json这个json文件，同时指定使用org.apache.spark.sql.json该类型的隐式转化类

scala> val jsonDDL = s"""

     | |CREATE TEMPORARY TABLE jsonTable

     | |USING org.apache.spark.sql.json

     | |OPTIONS (

     | | path  'file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json'

     | |)""".stripMargin

jsonDDL: String =

"

CREATE TEMPORARY TABLE jsonTable

USING org.apache.spark.sql.json

OPTIONS (

 path  'file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json'

)"

scala> sqlContext.sql(jsonDDL).collect() //创建该外部数据源表jsonTable

res0: Array[org.apache.spark.sql.Row] = Array()

2.查看schemaRDD

scala> val jsonSchema = sqlContext.sql(jsonDDL)
ExecutedCommand来取把数据用spark.sql.json的方式从path加载到jsonTable中。

3.查看各阶段执行计划：

scala> sqlContext.sql("select * from jsonTable").queryExecution
4.sql查询：

scala> sqlContext.sql("select * from jsonTable")
5.执行sql：

scala> sqlContext.sql("select * from jsonTable").collect

API使用：

scala> sqlContext.jsonFile("file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json")

scala> json.registerTempTable("jsonFile")

scala> sql("select * from jsonFile").collect()

Spark SQL External DataSource简介的更多相关文章

Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中. jdbc.scala重要API介绍: /** * Save this RDD ...
Spark SQL External Data Sources JDBC简易实现
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sq ...
Spark SQL External Data Sources JDBC官方实现读测试
在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext v ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...
[转] Spark sql 内置配置（V2.2）
[From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL ...
第十一篇：Spark SQL 源码分析之 External DataSource外部数据源
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的. /** Spark SQL源码分析系列文章*/ (Ps: External Data ...
Spark SQL之External DataSource外部数据源（二）源代码分析
上周Spark1.2刚公布,周末在家没事,把这个特性给了解一下,顺便分析下源代码,看一看这个特性是怎样设计及实现的. /** Spark SQL源代码分析系列文章*/ (Ps: External Da ...
spark SQL （一）初识，简介
一, 简介 Spark SQL是用于结构化数据处理的Spark模块.与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息.在内部 ...
Spark SQL概念学习系列之Spark SQL的简介（一）
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不 ...

随机推荐

java打印系统时间
public class Time { public static void main(String[] args) { Date t = new Date(); DateFormat ti = ne ...
stackExchange.redis 实现模糊匹配批量查询
如果使用redis的频次较高,那么业务中经常会出现需要根据关键字进行批量查询,所以总结一下StackExchange中使用批量查询的方法(如果数据量很大,那么在redis中模糊查询很耗时,请慎用!) ...
2ci
正则表达式，grep,sed,
答案详见:http://www.cnblogs.com/linhaifeng/p/6596660.html 作业一:整理正则表达式博客 ^ # 行首定位 $ # 行尾定位 . # 匹配除换行符以外的任 ...
Unable to determine the device handle for GPU 0000:01:00.0: GPU is lost.问题排坑
在运行maskrcnn时,会碰到训练不动的问题,就卡在这儿 UserWarning: Converting sparse IndexedSlices to a dense Tensor of unkn ...
matlab 将数字矩阵转换成图像
MATLAB中,常常使用imshow()函数来显示图像,而此时的图像矩阵可能经过了某种运算.在matlab中,为了保证精度,经过了运算的图像矩阵I其数据类型会从unit8型变成double型.如果直接 ...
emacs安装及配置
目录平台安装基本配置配置文件结构 elpa仓库管理主题配色字体显示配置(解决中文卡顿) 插件配置 markdown 简介 markdown-mode markdown-toc org导出m ...
angular $resouse服务
创建服务 var taskInstancesResource = function ($resource) { var resource = $resource('/ssc-cutover/rest/ ...
mybatis 注解的方式批量插入，更新数据
一,当向数据表中插入一条数据时,一般先检查该数据是否已经存在,如果存在更新,不存在则新增使用关键字 ON DUPLICATE KEY UPDATE zk_device_id为主键 model ...
hdu1011（树形背包)(提供一个特殊样例)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1011 Starship Troopers Time Limit: 10000/5000 MS (Jav ...

Spark SQL External DataSource简介

Spark SQL External DataSource简介的更多相关文章

随机推荐

热门专题