一、从shark到Spark SQL

Hive能够把SQL程序转换成map-reduce程序

可以把Hadoop中的Hive看作是一个接口，主要起到了转换的功能，并没有实际存储数据。

Shark即Hive on Spark，为了实现与Hive兼容，Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业，通过Hive的HiveQL解析，把HiveQL翻译成Spark上的RDD操作（shark相当于是hive的引进版，它把hive里的各种模块，基本上一五一十地照搬过来，就做了一个最底层的修改，hive是从最底层转成MapReduce程序，而到了shark，它的其他模块都没变，就把最底层翻译成spark应用程序。）

、

Shark的出现，使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高

因为shark是基于hive修改的，会带来两个问题：

1）执行计划优化完全依赖于Hive，不方便添加新的优化策略；

2）spark是线程级并行，MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的打了补丁的Hive源码分支

2014年6月1日Shark项目和SparkSQL项目的主持人Reynold Xin宣布：停止对Shark的开发，团队将所有资源放SparkSQL项目上，至此，Shark的发展画上了句话，但也因此发展出两个直线：SparkSQL和Hive on Spark

Spark SQL作为Spark生态的一员继续发展，而不再受限于Hive，只是兼容Hive
Hive on Spark是一个Hive的发展计划，该计划将Spark作为Hive的底层引擎之一，也就是说，Hive将不再受限于一个引擎，可以采用Map-Reduce、Tez、Spark等引擎

二、Spark SQL设计

Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据，也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责。（Spark SQL除了沿用Parser（把SQL转换成抽象语法树）这一个模块外，其他模块全部自己定义。）

三、为什么推出Spark SQL

（1）关系型数据库中只存储了一部分的结构化数据，但是实际上现在要处理的相关数据类型不仅仅包括关系数据库，现在大数据时代90%的数据都是非结构化数据和半结构化数据，对于这种数据，不能用SQL语句分析。而spark SQL同时支持非结构化、半结构化、结构化数据分析。

（2）关系型数据库没有办法处理类似机器学习和图像处理的图结构数据

Spark SQL可以有效地把关系数据查询和复杂分析算法融合。

参考文献：

【1】https://www.icourse163.org/learn/XMU-1205811805?tid=1206617233&from=study#/learn/content?type=detail&id=1211383862&sm=1

6.1 Spark SQL的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

随机推荐

go语言设计模式之Concurrency barrier
barrier.go package barrier import ( "fmt" "io/ioutil" "net/http" " ...
R基础绘图
本节内容 0:小知识 1:绘图系统散点图的特征 2:基础绘图函数 3:基础绘图参数 4:图形设备 5:案例操作5个图形 0:小知识 summary() ## 对数据框或者向量进行描述性数据 read. ...
剑指Offer-35.两个链表的第一个公共结点(C++/Java)
题目: 输入两个链表,找出它们的第一个公共结点. 分析: 先统计两个链表的长度,计算他们的差值,然后将两个链表对齐,再去寻找公共节点即可. 程序: C++ class Solution { publi ...
vscode源码分析【二】程序的启动逻辑，第一个窗口是如何创建的
上一篇文章:https://www.cnblogs.com/liulun/ (小广告:我做的开源免费的,个人知识管理及自媒体营销工具“想学吗”:https://github.com/xland/xia ...
Linux 小工具
1. 截图工具 shutter 安装 sudo add-apt-repository ppa:shutter/ppa sudo apt-get update sudo apt-get install ...
Java连载39-构造方法详解
一. 1.多行注释:CTRL + shift + / 2.当一个类中没有定义任何构造方法的话,系统默认给该类提供一个无参数的构造方法,这个构造方法被称为缺省构造器. public class D39 ...
【Sublime Text】sublime修改默认浏览器及使用不同浏览器打开网页的快捷键设置
#第一步:安装SideBarEnhancements插件下载插件,需要“翻墙”,故提供一下该插件的github地址:https://github.com/titoBouzout/SideBarEnh ...
pytest执行用例时从conftest.py抛出ModuleNotFoundError：No module named 'XXX'异常的解决办法
一.问题描述在项目根目录下执行整个测试用例,直接从conftest.py模块中抛出了ModuleNotFoundError:No module named 'TestDatas'的异常: 二.解决方 ...
数据库相关知识积累（sqlserver、oracle、mysql）
数据库相关知识积累(sqlserver.oracle.mysql) 1. sqlserver :断开所有连接: (还原数据库) 1.数据库分离 2. USE master GO ALTER DAT ...
keras EfficientNet介绍，在ImageNet任务上涨点明显 | keras efficientnet introduction
本文首发于个人博客https://kezunlin.me/post/88fbc049/,欢迎阅读最新内容! keras efficientnet introduction Guide About Ef ...

6.1 Spark SQL

一、从shark到Spark SQL

二、Spark SQL设计

三、为什么推出Spark SQL

6.1 Spark SQL的更多相关文章

随机推荐

热门专题