Spark Catalyst 查询优化器原理

这里我们讲解一下SparkSQL的优化器系统Catalyst，Catalyst本质就是一个SQL查询的优化器，而且和大多数当前的大数据SQL处理引擎设计基本相同（Impala、Presto、Hive（Calcite）等）。了解Catalyst的SQL优化流程，也就基本了解了所有其他SQL处理引擎的工作原理。

*SQL优化器核心执行策略主要分为两个大的方向：基于规则优化（RBO）以及基于代价优化(CBO)，基于规则

优化是一种经验式、启发式地优化思路，更多地依靠前辈总结出来的优化规则，简单易行且能够覆盖到大部分优

化逻辑，但是对于核心优化算子Join却显得有点力不从心。举个简单的例子，两个表执行Join到底应该使用

BroadcastHashJoin  还是SortMergeJoin？当前SparkSQL的方式是通过手工设定参数来确定，如果一个

表的数据量小于这个值就使用BroadcastHashJoin，但是这种方案显得很不优雅，很不灵活。基于代价优化

就是为了解决这类问题，它会针对每个Join评估当前两张表使用每种Join策略的代价，根据代价估算确定一种

代价最小的方案

*我们这里主要说明基于规则的优化，略提一下CBO

如上图是一个SQL经过优化器的最终生成物理查询计划的留存，红色部分是我们要重点说明的内容。大家思考我们写的一个SQL最终如何在Spark引擎中转换成具体的代码执行的。任何一个优化器工作原理都大同小异：SQL语句首先通过Parser模块被解析为语法树，此棵树称为Unresolved Logical Plan； Unresolved Logical Plan通过Analyzer模块借助于数据元数据解析为Logical Plan；此时再通过各种基于规则的优化策略进行深入优化，得到Optimized Logical Plan；优化后的逻辑执行计划依然是逻辑的，并不能被Spark系统理解，此时需要将此逻辑执行计划转换为Physical Plan；为了更好的对整个过程进行理解，下文通过一个简单示例进行解释。

Parser

Parser简单来说是将SQL字符串切分成一个一个Token，再根据一定语义规则解析为一棵语法树。Parser模块目前基本都使用第三方类库 ANTLR 进行实现，比如Hive、 Presto、SparkSQL等。下图是一个示例性的SQL语句（有两张表，其中people表主要存储用户基本信息，score表存储用户的各种成绩），通过Parser解析后的AST语法树如下图所示：

Analyzer

通过解析后的逻辑执行计划基本有了⻣架，但是系统并不知道score、sum这些都是些什么⻤，此时需要基本的元数据信息来表达这些词素，最重要的元数据信息主要包括两部分：表的Scheme和基本函数信息，表的scheme主要包括表的基本定义（列名、数据类型）、表的数据格式（Json、Text）、表的物理位置等，基本函数信息主要指类信息。

Analyzer会再次遍历整个语法树，对树上的每个节点进行数据类型绑定以及函数绑定，比如people 词素会根据元数据表信息解析为包含age、id以及name三列的表，people.age会被解析为数据类型为int的变量，sum会被解析为特定的聚合函数，如下图所示：

Optimizer

优化器是整个Catalyst的核心，上文提到优化器分为基于规则优化和基于代价优化两种，此处只介绍基于规则的优化策略，基于规则的优化策略实际上就是对语法树进行一次遍历，模式匹配能够满足特定规则的节点，再进行相应的等价转换。因此，基于规则优化说到底就是一棵树等价地转换为另一棵树。SQL中经典的优化规则有很多，下文结合示例介绍三种比较常⻅的规则：谓词下推（Predicate Pushdown）、常量累加（Constant Folding）和列值裁剪（Column Pruning）

1.谓词下推，下图左边是经过Analyzer解析后的语法树，语法树中两个表先做join，之后再使用age>10对结果进行过滤。大家知道join算子通常是一个非常耗时的算子，耗时多少一般取决于参与join的两个表的大小，如果能够减少参与join两表的大小，就可以大大降低join算子所需时间。谓词下推就是这样一种功能，它会将过滤操作下推到join之前进行，下图中过滤条件age>0以及id!=null两个条件就分别下推到了join之前。这样，系统在扫描数据的时候就对数据进行了过滤，参与join的数据量将会得到显著的减少，join耗时必然也会降低。

2.常量累加，如下图。常量累加其实很简单，就是 x+(1+2) -> x+3 这样的规则，虽然是一个很小的改动，但是意义巨大。示例如果没有进行优化的话，每一条结果都需要执行一次100+80的操作，然后再与变量math_score以及english_score相加，而优化后就不需要再执行100+80操作。

3.列值裁剪，如下图。这是一个经典的规则，示例中对于people表来说，并不需要扫描它的所有列值，而只需要列值id，所以在扫描people之后需要将其他列进行裁剪，只留下列id。这个优化一方面大幅度减少了网络、内存数据量消耗，另一方面对于列存数据库（Parquet）来说大大提高了扫描效率

物理计划

经过上述步骤，逻辑执行计划已经得到了比较完善的优化，然而，逻辑执行计划依然没办法真正执行，他们只是逻辑上可行，实际上Spark并不知道如何去执行这个东⻄。比如Join只是一个抽象概念，代表两个表根据相同的id进行合并，然而具体怎么实现这个合并，逻辑执行计划并没有说明。

此时就需要将逻辑执行计划转换为物理执行计划，将逻辑上可行的执行计划变为Spark可以真正执行的计划。比如Join算子，Spark根据不同场景为该算子制定了不同的算法策略，有BroadcastHashJoin、ShuffleHashJoin以及SortMergeJoin等（可以将Join理解为一个接口， BroadcastHashJoin是其中一个具体实现），物理执行计划实际上就是在这些具体实现中挑选一个耗时最小的算法实现，这个过程涉及到基于代价优化(CBO)策略，所谓基于代价，是因为物理执行计划的每一个节点都是有执行代价的，这个代价主要分为两部分

第一部分:该执行节点对数据集的影响，或者说该节点输出数据集的大小与分布（需要去采集）

第二部分:该执行节点操作算子的代价（相对固定，可用规则来描述）

在SQL 执行之前会根据代价估算确定一种代价最小的方案来执行。我们这里以Join为例子做个简单说明

*在SparkSQL中，Join可分为ShufflebasedJoin和BroadcastJoin。ShufflebasedJoin需要引入Shuffle，代价相对较高。BroadcastJoin无须Join，但要求至少有一张表足够小，能通过Spark的Broadcast机制广播到每个Executor中。*在不开启CBO中，SparkSQL通过spark.sql.autoBroadcastJoinThreshold判断是否启用BroadcastJoin。其默认值为10485760即10MB。并且该判断基于参与Join的表的原始大小。*在下图示例中，Table1大小为1TB，Table2大小为20GB，因此在对二者进行join时，由于二者都远大于自动BroatcastJoin的阈值，因此SparkSQL在未开启CBO时选用SortMergeJoin对二者进行Join。*而开启CBO后，由于Table1经过Filter1后结果集大小为500GB，Table2经过Filter2后结果集大小为10MB低于自动BroatcastJoin阈值，因此SparkSQL选用BroadcastJoin。

Spark Catalyst 查询优化器原理的更多相关文章

深入研究Spark SQL的Catalyst优化器（原创翻译）
Spark SQL是Spark最新和技术最为复杂的组件之一.它支持SQL查询和新的DataFrame API.Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性( ...
数据库查询优化器的艺术：原理解析与SQL性能优化
数据库查询优化器的艺术作者:李海翔 Oracle公司MySQL全球开发团队.资深专家简单的浏览了一遍,由于以前没有接触过SQL优化这些知识,读起来还是非常吃力的,不过收获还是很大的. 作者通过对M ...
SQL Server查询优化器的工作原理
SQL Server的查询优化器是一个基于成本的优化器.它为一个给定的查询分析出很多的候选的查询计划,并且估算每个候选计划的成本,从而选择一个成本最低的计划进行执行.实际上,因为查询优化器不可能对每一 ...
20170103简单解析MySQL查询优化器工作原理
转自博客http://www.cnblogs.com/hellohell/p/5718238.html 感谢楼主的贡献查询优化器的任务是发现执行SQL查询的最佳方案.大多数查询优化器,包括MySQL ...
关系型数据库工作原理-查询优化器(翻译自Coding-Geek文章)
本文翻译自Coding-Geek文章:< How does a relational database work>.原文链接:http://coding-geek.com/how-data ...
MySQL查询优化器工作原理解析
手册上查询优化器概述查询优化器的任务是发现执行SQL查询的最佳方案.大多数查询优化器,包括MySQL的查询优化器,总或多或少地在所有可能的查询评估方案中搜索最佳方案.对于联接查询,MySQL优化器所 ...
第7章 Spark SQL 的运行原理（了解）
第7章 Spark SQL 的运行原理(了解) 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析.绑定.优化.执行.Spark SQL会先将 ...
Spark基本架构及原理
Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁 ...
SQL Server 查询优化器运行方式
一.结合实际,谈索引使用的误区理论的目的是应用.虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析.下面我们将根据在实践中遇到的实际问题 ...
Atitit Mysql查询优化器存取类型范围存取类型索引存取类型 AND or的分析
Atitit Mysql查询优化器存取类型范围存取类型索引存取类型 AND or的分析 Atitit Mysql查询优化器存取类型范围存取类型索引存取类型 AND or的分析1 存 ...

随机推荐

如何查看win10的版本号。
1.设置--系统--关于 2..dxdiag 3.CMD中输入:slmgr /dlv 4.Winver
S32DS中链接文件及启动代码学习
S32DS中链接文件及启动代码学习一.链接文件 <Linker Files>文件夹中有linker_flash.ld文件和linker_ram.ld文件. Linker File称为链接 ...
md5加密中文windows和linux不一致
测试环境springboot md5加密结果不一致 linux启动的时候 java -Dfile.encoding=utf-8 -jar xxx.jar 即可.主要是编码不一致导致.
UnsupportedOperationException异常
看看下面的例子,这样输出什么呢? public class test { public static void main(String[] args) { String arr = "ab, ...
spring boot2.3.0集成 thymelaf
配置pom 如果是2.x的直接配置一个starter即可 <dependency> <groupId>org.spri ...
修改浏览器搜索引擎：设置网址格式（用“%s”代替搜索字词）
浏览器搜索引擎设置,如何填写网址格式(用"%s"代替搜索字词)? 以下收集部分: 综合检索名称关键字网址(用"%s"代替搜索字词) 必应 cn.bing. ...
了解JAVA基本知识以及一下常用的dos命令
9月5日学习常用的Dos命令 #盘符切换盘符名称: =>回车#查看当前目录下的所有文件dir#切换目录 cd change directorycd .. =>返回上一级目录#清理屏 ...
STL练习-ACboy needs your help again!
ACboy was kidnapped!! he miss his mother very much and is very scare now.You can't image how dark ...
.Net Core 前后端分离 DevOps 系列
前言: 目录: Linux 安装脚本之乌班图版本 Linux Nginx部署 DevOps安装步骤
HttpRunner4.x版本调试测试用例时报错 run testcase failed error="abort running due to failfast setting: variable XXX not found" 解决方法
httprunner脚本调试报错未知变量名称未定义问题解决了,由于请求的requestBody证件照片链接包含$关键字,需要使用$$转义. 执行脚本报错截图接口requestBody参数截图 ...

Spark Catalyst 查询优化器原理

Spark Catalyst 查询优化器原理的更多相关文章

随机推荐

热门专题