Catalyst揭秘 Day4 analyzer解析

哎哟慰 2024-10-28 04:31:36 原文

Catalyst揭秘 Day4

analyzer解析

今天继续解析catalyst，主要讲一下analyzer，在sql语句的处理流程中，analyzer是在sqlparse的基础上，把unresolved logical plan生成logcal plan。

Analyzer定义

在analyzer构造的时候，会传入catalog和functionRegistry，其中catelog用来存放用户指定的表名等信息，functionRegistry存放自定义函数，主要用来将未解析的属性和关系进行转换。

在构造方法中，除了catalog和functionRegistry，还有一个迭代次数，因为在分析时需要不断进行遍历。

通过迭代次数这个参数，我们可以定义一些策略，包括Once和FixedPoint，FixedPoint会根据参数控制迭代次数的上限。

batchs是整个analyzer的核心，里面会定义一系列的rules，这些rules会采取的特定的策略。通过这些规则，会把unresovled变成resovled。

Analyzer指定

RuleExecutor中的execute是执行的入口。
在执行时，我们发现，各个规则之间是串行运行的，首先是对batchs进行循环，再对每个batch中rule进行处理。

标红的这句代码是整个过程的关键，是实际的执行过程，对调用各个Rule中的apply方法。
以一个具体的Rule来看的话，这里会使用到模式匹配，调用resolveOperators方法对plan中的内容进行解析。

resolveOperators会循环遍历各个节点，应用解析规则。

相比于SqlParser，analyzer整个流程更简洁一些，主要就是用rules，采用模式匹配进行处理，在这里还是想再感叹下Scala强大的语法能力。

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

Catalyst揭秘 Day4 analyzer解析的更多相关文章

Catalyst揭秘 Day5 optimizer解析
Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分.主要作用是把analyzed logicalPlan变成optimized Log ...
Catalyst揭秘 Day3 sqlParser解析
Catalyst揭秘 Day3 sqlParser解析今天我们会进入catalyst引擎的第一个模块sqlparser,它是catalyst的前置模块. 树形结构从昨天的介绍我们可以看到sqlPa ...
Catalyst揭秘 Day6 Physical plan解析
Catalyst揭秘 Day6 Physical plan解析物理计划是Spark和Sparksql相对比而言的,因为SparkSql是在Spark core上的一个抽象,物理化就是变成RDD,是S ...
Catalyst揭秘 Day1 Catalyst本地解析
Catalyst揭秘 Day1 Catalyst本地解析今天开始讲下Catalyst,这是我们必须精通的内容之一: 在Spark2.x中,主要会以Dataframe和DataSet为api,无论是D ...
Kakfa揭秘 Day4 Kafka中分区深度解析
Kakfa揭秘 Day4 Kafka中分区深度解析今天主要谈Kafka中的分区数和consumer中的并行度.从使用Kafka的角度说,这些都是至关重要的. 分区原则 Partition代表一个to ...
Catalyst揭秘 Day7 SQL转为RDD的具体实现
Catalyst揭秘 Day7 SQL转为RDD的具体实现从技术角度,越底层和硬件偶尔越高,可动弹的空间越小,而越高层,可动用的智慧是更多.Catalyst就是个高层的智慧. Catalyst已经逐 ...
Catalyst揭秘 Day2 Catalyst源码初探
Catalyst揭秘 Day2 Catalyst源码初探这节课从源码角度来讲catalyst. 首先有一个观点要澄清,就是技术不是越底层就越是性能和效率更高.因为除了指令执行性能以外,更重要的是架构 ...
Catalyst揭秘 Day8 Final 外部数据源和缓存系统
Catalyst揭秘 Day8 Final 外部数据源和缓存系统今天是Catalyst部分的收官,主要讲一些杂项内容. 外部数据源处理什么叫外部数据源,是SparkSql自己支持的一些文件格式,以 ...
Spark Tungsten揭秘 Day4 内存和CPU优化使用
Spark Tungsten揭秘 Day4 内存和CPU优化使用今天聚焦于内存和CPU的优化使用,这是Spark2.0提供的关于执行时的非常大的优化部分. 对过去的代码研究,我们会发现,抽象的提高, ...

随机推荐

如何在linux下解压缩rar和zip格式的文件压缩包
转载:http://oldboy.blog.51cto.com/2561410/597515 使用apt-get安装: sudo apt-get install rar zip rar使用: 将 ...
Debian安装Apache2+MySQL5+PHP5（zz）
转载:http://hi.baidu.com/lostdays/item/1d5e7e4833b4d20fc116134b 终于在Debian用apt-get安装好LAMP了,之前在CentOS使用编 ...
CCTableView的使用和注意事项
#include "cocos-ext.h" using namespace cocos2d::extension; class TableViewTestLayer: publi ...
Android（java）学习笔记89：泛型概述和基本使用
package cn.itcast_01; import java.util.ArrayList; import java.util.Iterator; /* * ArrayList存储字符串并遍历 ...
大四找实习（web前端），加油
大四很奇妙,课程变少了,事情却繁杂了. 大三暑假去学驾照,在很多人看来太迟了(毕竟身边很多人跑去实习了),包括我自己.学驾照特别费时间,尤其是对即将大四,希望用实习充实自己的我来说.考虑再三,终于决定 ...
this的分析分支
最近看到这个题目,开始不太理解,但是仔细的看完this之后,觉得懂了一些 function Foo() { getName = function () { alert (1); }; return t ...
ASP.NET MVC and jqGrid 学习笔记 6-增删改操作
程序结构: Member.cs CRUD.cshtml CRUD.js HomeController 一.Model public class Member { [Key] public int No ...
Visual studio 2012 添加 GitHub
文件-新建项目
ServiceStack.Redis客户端访问库几项事项
1)RedisClient的SetValue(string key, byte[]val)方法,如果val的长度为0,则redis服务器库中设置该key值失败. 2)PoolRedisClientMa ...
最短路径之Dijkstra算法及实例分析
Dijkstra算法迪科斯彻算法 Dijkstra算法描述为:假设用带权邻接矩阵来表示带权有向图.首先引进一个辅助向量D,它的每个分量D[i]表示当前所找到的从始点v到每个终点Vi的最短路径.它的初始 ...