SparkSQL的解析详解

　　SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。

　　首先说下传统数据库的解析，传统数据库的解析过程是按Rusult、Data Source、Operation的次序来解析的。传统数据库先将读入的SQL语句进行解析，分辨出SQL语句中哪些词是关键字（如select,from,where)，哪些是表达式，哪些是Projection，哪些是Data Source等等。进一步判断SQL语句是否规范，不规范就报错，规范则按照下一步过程绑定（Bind)。过程绑定是将SQL语句和数据库的数据字典(列,表,视图等）进行绑定，如果相关的Projection、Data Source等都存在，就表示这个SQL语句是可以执行的。在执行过程中，有时候甚至不需要读取物理表就可以返回结果，比如重新运行刚运行过的SQL语句，直接从数据库的缓冲池中获取返回结果。在数据库解析的过程中SQL语句时，将会把SQL语句转化成一个树形结构来进行处理，会形成一个或含有多个节点(TreeNode)的Tree,然后再后续的处理政对该Tree进行一系列的操作。

　　Spark SQL对SQL语句的处理和关系数据库对SQL语句的解析采用了类似的方法，首先会将SQL语句进行解析，然后形成一个Tree，后续如绑定、优化等处理过程都是对Tree的操作，而操作方法是采用Rule,通过模式匹配，对不同类型的节点采用不同的操作。SparkSQL有两个分支，sqlContext和hiveContext。sqlContext现在只支持SQL语法解析器（Catalyst)，hiveContext支持SQL语法和HiveContext语法解析器。

　　sqlContext的解析过程：

　　(1)SQL语句经过SqlParse解析成Unresolved LogicalPlan。

　　(2)使用analyzer结合数据字典（cataqlog)进行绑定，生成resolved LogicalPlan。

　　(3)使用optimizer对resolved LogicalPlan进行优化，生成optimized LogicalPlan。

　　(4)使用SparkPlan将LogicalPlan转换成PhysicalPlan。

　　(5)使用prepareForExecution()将PhysicalPlan转换成可执行物理计划。

　　(6)使用execute()执行物理计划。

　　(7)生成SchemaRDD。

　　然而并没有什么卵用，catalyst解析做的有些简陋，很多不支持，所以在写程序的时候，还是声明的hiveContext对象。

　　hiveContext的解析过程:

　　(1)SQL语句经过HiveQl.parseSql解析成了Unresolved LogicalPlan。

　 (2)使用analyzer结合hive的metastore进行绑定，生成resolved LogicalPlan。

　　(3)使用optimizer对resolved LogicalPlan进行优化，生成optimized LogicalPlan。

　　(4)使用hivePlanner将LogicalPlan转换成PhysicalPlan。

　　(5)shiyong prepareForExecution()将PhysicalPlan转换成可执行物理计划。

　　(6)使用execute()执行可执行物理计划。

　　(7)执行后，使用map(_.copy)将结果导入SchemaRDD。（最终转化为RDD）

SparkSQL的解析详解的更多相关文章

IA-32指令解析详解
IA-32指令解析详解 0x00 前言这段时间忙于考试,信息论和最优化,还有算法分析,有点让人头大.期间花了几天看SEH机制,能明白个大概,但是对于VC++对于SHE的包装似乎还是不是很明白,发现逆 ...
android Json解析详解
JSON的定义: 一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性.业内主流技术为其提供了完整的解决方案(有点类似于正则表达式 ,获得了当今大部分语言的支持),从而可以在不同平台间进行数 ...
android Json解析详解（详细代码）
JSON的定义: 一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性.业内主流技术为其提供了完整的解决方案(有点类似于正则表达式 ,获得了当今大部分语言的支持),从而可以在不同平台间进行数据 ...
Spring IoC componet-scan 节点解析详解
前言我们在了解 Spring 容器的扩展功能 (ApplicationContext) 之前,先介绍下 context:componet-scan 标签的解析过程,其作用很大是注解能生效的关键所在. ...
XML解析详解|乐字节
大家好,乐字节的小乐又来了,Java技术分享哪里少的了小乐!上次我们说了可扩展标记语言XML之二:XML语言格式规范.文档组成,本文将介绍重点——XML解析. 基本的解析方式有两种:一种叫 SAX ...
JavaSE18章_JSON解析详解
一.JSON简介 JSON(JavaScript Object Notation),是一种轻量级的数据交换格式.JSON是存储和交换文本信息的,语法类似 XML.易于人阅读和编写,同时也易于机器解析和 ...
GET/POST请求的使用《极客学院－－AFNetworking 2.x 网络解析详解－－2》学习笔记
AFNetworking是开源代码排名第一的开源库. GET请求的请求正文一般都是明文显示的,携带的数据量小. POST用于处理复杂的业务,并不用明文的请求,其实POST请求可以携带更多的参数,只 ...
网络请求的基本知识《极客学院－－AFNetworking 2.x 网络解析详解－－1》学习笔记
网络请求的基本知识我们网络请求用的是HTTP请求 Http请求格式:请求的方法,请求头,请求正文 Http请求的Request fields:请求的头部,以及被请求头部的一些设置 Http请求的 ...
JavaScript : DOM文档解析详解
JavaScript DOM 文档解析 1.节点(node):来源于网络理论,代表网络中的一个连接点.网络是由节点构成的集合 <p title=“a gentle reminder”> ...

随机推荐

(转载)Hadoop map reduce 过程获取环境变量
来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取 ...
java多线程：java队列详解
队列是一种特殊的线性表,它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作.进行插入操作的端称为队尾,进行删除操作的端称为队头.队列中没有元素时,称为空队列. 在队列这 ...
How can I create an executable JAR with dependencies using Maven?
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using ...
采用libsvm进行mnist训练
#coding:utf8 import cPickle import gzip import numpy as np from sklearn.svm import libsvm class SVM( ...
SET XACT_ABORT ON
SET XACT_ABORT ON时,在事务中,若出现错误,系统即默认回滚事务,但只对非自定义错误有效 SET XACT_ABORT OFF,默认值,在事务中,回滚一个语句还是整个事务视错误的严重程序 ...
SQLServer三种自定义函数
自定义函数"是我们平常的说法,而"用户定义的函数"是 SQL Server 中书面的说法. SQL Server 2000 允许用户创建自定义函数,自定义函数可以有返回值 ...
shell脚本实例-游戏脚本
http://bbs.chinaunix.net/thread-3580033-1-1.html shell游戏收集贴 #!/bin/bash # Tetris Game #APP declarati ...
kubernetes centos 安装
1. 安装 yum install -y etcd kubernetes 2. 配置 docker /etc/sysconfig/doc ...
【转】HTML - embed 与 object 之争
在 HTML 里嵌入文本和图片之外的事物,就会用到嵌入标签,而嵌入标签在各浏览器之间的不统一,一直是让开发人员很头痛的问题.一切都要从嵌入 SUN 公司的 Applet Java 小程序开始. 当时, ...
.net 添加Cookie的4种方法
第一种添加Cookie方法 HttpCookie myCookie = new HttpCookie("userrole"); myCookie.Values["a&qu ...

SparkSQL的解析详解

SparkSQL的解析详解的更多相关文章

随机推荐

热门专题