Nebula Graph 源码解读系列 | Vol.02 详解 Validator
整体架构
Nebula Graph Query Engine 主要分为四个模块,分别是 Parser、Validator、Optimizer 和 Executor。
Parser 完成对语句的词法语法解析并生成抽象语法树(AST),Validator 会将 AST 转化为执行计划,Optimizer 对执行计划进行优化,而 Executor 负责实际数据的计算。
这篇文章我们主要介绍 Validator 的实现原理。
目录结构
Validator 代码实现在 src/validator
和 src/planner
目录。
src/validator
目录主要包括各种子句的 Validator 实现,比如 OrderByValidator
、LimitValidator
、GoValidator
等等。
validator/
├── ACLValidator.h
├── AdminJobValidator.h
├── AdminValidator.h
├── AssignmentValidator.h
├── BalanceValidator.h
├── DownloadValidator.h
├── ExplainValidator.h
├── FetchEdgesValidator.h
├── FetchVerticesValidator.h
├── FindPathValidator.h
├── GetSubgraphValidator.h
├── GoValidator.h
├── GroupByValidator.h
├── IngestValidator.h
├── LimitValidator.h
├── LookupValidator.h
├── MaintainValidator.h
├── MatchValidator.h
├── MutateValidator.h
├── OrderByValidator.h
├── PipeValidator.h
├── ReportError.h
├── SequentialValidator.h
├── SetValidator.h
├── TraversalValidator.h
├── UseValidator.h
├── Validator.h
└── YieldValidator.h
src/planner/plan 目录定义了所有 PlanNode 的数据结构,用于生成最终的执行计划。比如,当查询语句中含有聚合函数时,执行计划中会生成 Aggregate 节点,Aggregate 类会指定聚合函数计算时所需的全部信息,包括分组列和聚合函数表达式,Aggregate 类定义在 Query.h 中。Nebula 定义了一百多种 PlanNode,PlanNode::kind
定义在 PlanNode.h 中,在此不做详细阐述。
planner/plan/
├── Admin.cpp
├── Admin.h // administration related nodes
├── Algo.cpp
├── Algo.h // graph algorithm related nodes
├── ExecutionPlan.cpp
├── ExecutionPlan.h // explain and profile nodes
├── Logic.cpp
├── Logic.h // nodes introduced by the implementation layer
├── Maintain.cpp
├── Maintain.h // schema related nodes
├── Mutate.cpp
├── Mutate.h // DML related nodes
├── PlanNode.cpp
├── PlanNode.h // plan node base classes
├── Query.cpp
├── Query.h // DQL related nodes
└── Scan.h // index related nodes
src/planner 目录还定义了 nGQL 和 match 语句的 planner 实现,用于生成 nGQL 和 match 语句执行计划。
源码解析
validator 入口函数是 Validator::validate(Sentence*, QueryContext*)
,负责将 parser 生成的抽象语法树转化为执行计划,QueryContext 中会保存最终生成的执行计划 root 节点,函数代码如下:
Status Validator::validate(Sentence* sentence, QueryContext* qctx) {
DCHECK(sentence != nullptr);
DCHECK(qctx != nullptr);
// Check if space chosen from session. if chosen, add it to context.
auto session = qctx->rctx()->session();
if (session->space().id > kInvalidSpaceID) {
auto spaceInfo = session->space();
qctx->vctx()->switchToSpace(std::move(spaceInfo));
}
auto validator = makeValidator(sentence, qctx);
NG_RETURN_IF_ERROR(validator->validate());
auto root = validator->root();
if (!root) {
return Status::SemanticError("Get null plan from sequential validator");
}
qctx->plan()->setRoot(root);
return Status::OK();
}
该函数首先获取当前 session 的 space 信息并保存在 ValidateContext中,之后调用 Validator::makeValidator()
和 Validator::validate()
函数。
Validator::makeValidator()
的功能是生成子句的 validator,该函数会首先生成 SequentialValidator,SequentialValidator 是 validator 的入口,所有语句都会首先生成 SequentialValidator。
SequentialValidator::validateImpl()
函数会调用 Validator::makeValidator()
生成相应子句的 validator。函数代码如下:
Status SequentialValidator::validateImpl() {
Status status;
if (sentence_->kind() != Sentence::Kind::kSequential) {
return Status::SemanticError(
"Sequential validator validates a SequentialSentences, but %ld is given.",
static_cast<int64_t>(sentence_->kind()));
}
auto seqSentence = static_cast<SequentialSentences*>(sentence_);
auto sentences = seqSentence->sentences();
seqAstCtx_->startNode = StartNode::make(seqAstCtx_->qctx);
for (auto* sentence : sentences) {
auto validator = makeValidator(sentence, qctx_);
NG_RETURN_IF_ERROR(validator->validate());
seqAstCtx_->validators.emplace_back(std::move(validator));
}
return Status::OK();
}
同样地,PipeValidator、AssignmentValidator 和 SetValidator 也会生成相应子句的 validator。
Validator::validate()
负责生成执行计划,函数代码如下:
Status Validator::validate() {
auto vidType = space_.spaceDesc.vid_type_ref().value().type_ref().value();
vidType_ = SchemaUtil::propTypeToValueType(vidType);
NG_RETURN_IF_ERROR(validateImpl());
// Check for duplicate reference column names in pipe or var statement
NG_RETURN_IF_ERROR(checkDuplicateColName());
// Execute after validateImpl because need field from it
if (FLAGS_enable_authorize) {
NG_RETURN_IF_ERROR(checkPermission());
}
NG_RETURN_IF_ERROR(toPlan());
return Status::OK();
}
该函数首先检查 space 和用户权限等信息,之后调用函数 Validator:validateImpl()
完成子句校验,validateImpl()
函数是 Validator 类的纯虚函数,利用多态调用不同子句的 validatorImpl()
实现函数。最后调用 Validator::toPlan()
函数生成执行计划,toPlan()
函数会生成子句的执行计划,子执行计划会被连接形成完整的执行计划,比如 match 语句中通过函数 MatchPlanner::connectSegments()
连接子执行计划,而 nGQL 语句则通过 Validator::appendPlan()
实现。
举例
下面我们以 nGQL 语句为例具体介绍一下以上流程。
语句:
GO 3 STEPS FROM "vid" OVER edge
WHERE $$.tag.prop > 30
YIELD edge._dst AS dst
| ORDER BY $-.dst
这条 nGQL 语句在 validator 阶段主要经历三个过程:
制作子句 validator
首先会调用 Validator::makeValidator()
生成 SequentialValidator。在 SequentialValidator::validateImpl()
函数中会生成 PipeValidator,PipeValidator 会制作左右子句的 validator,分别是 GoValidator 和 OrderByValidator。
子句校验
子句校验阶段会分别校验 Go 和 OrderBy 子句。
以 Go 语句为例,会先校验语义错误,比如 aggregate 函数使用不当、表达式类型不匹配等等,然后依次校验内部子句,校验过程中会把校验的中间结果保存在 GoContext 中,作为 GoPlanner 生成执行计划的依据。比如 validateWhere() 会保存过滤条件表达式用于之后生成 Filter 执行计划节点。
NG_RETURN_IF_ERROR(validateStep(goSentence->stepClause(), goCtx_->steps)); // 校验 step 子句
NG_RETURN_IF_ERROR(validateStarts(goSentence->fromClause(), goCtx_->from)); // 校验 from 子句
NG_RETURN_IF_ERROR(validateOver(goSentence->overClause(), goCtx_->over)); // 校验 over 子句
NG_RETURN_IF_ERROR(validateWhere(goSentence->whereClause())); // 校验 where 子句
NG_RETURN_IF_ERROR(validateYield(goSentence->yieldClause())); // 校验 yield 子句
plan 生成
Go 语句的子执行计划由 GoPlanner::transform(Astcontext*) 函数生成,代码如下:
StatusOr<SubPlan> GoPlanner::transform(AstContext* astCtx) {
goCtx_ = static_cast<GoContext *>(astCtx);
auto qctx = goCtx_->qctx;
goCtx_->joinInput = goCtx_->from.fromType != FromType::kInstantExpr;
goCtx_->joinDst = !goCtx_->exprProps.dstTagProps().empty();
SubPlan startPlan = QueryUtil::buildStart(qctx, goCtx_->from, goCtx_->vidsVar);
auto& steps = goCtx_->steps;
if (steps.isMToN()) {
return mToNStepsPlan(startPlan);
}
if (steps.steps() == 0) {
auto* pt = PassThroughNode::make(qctx, nullptr);
pt->setColNames(std::move(goCtx_->colNames));
SubPlan subPlan;
subPlan.root = subPlan.tail = pt;
return subPlan;
}
if (steps.steps() == 1) {
return oneStepPlan(startPlan);
}
return nStepsPlan(startPlan);
}
该函数首先调用 QueryUtil::buildStart() 构造start 节点,然后根据四种不同 step 的情况采用不同的方式生成计划。本例中语句会采用 nStepPlan 策略。
GoPlanner::nStepsPlan() 函数代码如下:
SubPlan GoPlanner::nStepsPlan(SubPlan& startVidPlan) {
auto qctx = goCtx_->qctx;
auto* start = StartNode::make(qctx);
auto* gn = GetNeighbors::make(qctx, start, goCtx_->space.id);
gn->setSrc(goCtx_->from.src);
gn->setEdgeProps(buildEdgeProps(true));
gn->setInputVar(goCtx_->vidsVar);
auto* getDst = QueryUtil::extractDstFromGN(qctx, gn, goCtx_->vidsVar);
PlanNode* loopBody = getDst;
PlanNode* loopDep = nullptr;
if (goCtx_->joinInput) {
auto* joinLeft = extractVidFromRuntimeInput(startVidPlan.root);
auto* joinRight = extractSrcDstFromGN(getDst, gn->outputVar());
loopBody = trackStartVid(joinLeft, joinRight);
loopDep = joinLeft;
}
auto* condition = loopCondition(goCtx_->steps.steps() - 1, gn->outputVar());
auto* loop = Loop::make(qctx, loopDep, loopBody, condition);
auto* root = lastStep(loop, loopBody == getDst ? nullptr : loopBody);
SubPlan subPlan;
subPlan.root = root;
subPlan.tail = startVidPlan.tail == nullptr ? loop : startVidPlan.tail;
return subPlan;
}
Go 语句生成的子执行计划如下:
Start -> GetNeighbors -> Project -> Dedup -> Loop -> GetNeighbors -> Project -> GetVertices -> Project -> LeftJoin -> Filter -> Project
Go 语句的功能是完成图的拓展,GetNeighbors 是执行计划中最重要的节点,GetNeighbors 算子会在运行期访问存储服务,拿到通过起点和指定边类型一步拓展后终点的 id,多步拓展通过 Loop 节点实现,Start 到 Loop 之间是 Loop 子计划,当满足条件时 Loop 子计划会被循环执行,最后一步拓展节点在 Loop 外实现。Project 节点用来获取当前拓展的终点 id,Dedup 节点对终点 id 进行去重后作为下一步拓展的起点。GetVertices 节点负责取终点 tag 的属性,Filter 做条件过滤,LeftJoin 的作用是合并 GetNeightbors 和 GetVertices 的结果。
OrderBy 语句的功能是对数据进行排序,子执行计划会生成 Sort 节点。
左右子句计划生成之后,PipeValidator::toPlan() 函数会调用 Validator::appendPlan() 连接左右子计划并得到最终的执行计划。完整执行计划如下:
Start -> GetNeighbors -> Project -> Dedup -> Loop -> GetNeighbors -> Project -> GetVertices -> Project -> LeftJoin -> Filter -> Project -> Sort -> DataCollect
以上 Validator 部分就介绍完毕。
论坛相关问题
问:如何找寻 parser/GraphParser.hpp 文件
答:.h 文件是由编译时产生的文件,编译一次就有文件了。
以上为本篇文章的介绍内容。
交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~
Nebula Graph 源码解读系列 | Vol.02 详解 Validator的更多相关文章
- jvm源码解读--15 oop对象详解
(gdb) p obj $15 = (oopDesc *) 0xf3885d08 (gdb) p * obj $16 = { _mark = 0x70dea4e01, _metadata = { _k ...
- 新手阅读 Nebula Graph 源码的姿势
摘要:在本文中,我们将通过数据流快速学习 Nebula Graph,以用户在客户端输入一条 nGQL 语句 SHOW SPACES 为例,使用 GDB 追踪语句输入时 Nebula Graph 是怎么 ...
- Alamofire源码解读系列(二)之错误处理(AFError)
本篇主要讲解Alamofire中错误的处理机制 前言 在开发中,往往最容易被忽略的内容就是对错误的处理.有经验的开发者,能够对自己写的每行代码负责,而且非常清楚自己写的代码在什么时候会出现异常,这样就 ...
- Alamofire源码解读系列(四)之参数编码(ParameterEncoding)
本篇讲解参数编码的内容 前言 我们在开发中发的每一个请求都是通过URLRequest来进行封装的,可以通过一个URL生成URLRequest.那么如果我有一个参数字典,这个参数字典又是如何从客户端传递 ...
- Alamofire源码解读系列(三)之通知处理(Notification)
本篇讲解swift中通知的用法 前言 通知作为传递事件和数据的载体,在使用中是不受限制的.由于忘记移除某个通知的监听,会造成很多潜在的问题,这些问题在测试中是很难被发现的.但这不是我们这篇文章探讨的主 ...
- Alamofire源码解读系列(五)之结果封装(Result)
本篇讲解Result的封装 前言 有时候,我们会根据现实中的事物来对程序中的某个业务关系进行抽象,这句话很难理解.在Alamofire中,使用Response来描述请求后的结果.我们都知道Alamof ...
- Alamofire源码解读系列(六)之Task代理(TaskDelegate)
本篇介绍Task代理(TaskDelegate.swift) 前言 我相信可能有80%的同学使用AFNetworking或者Alamofire处理网络事件,并且这两个框架都提供了丰富的功能,我也相信很 ...
- Alamofire源码解读系列(七)之网络监控(NetworkReachabilityManager)
Alamofire源码解读系列(七)之网络监控(NetworkReachabilityManager) 本篇主要讲解iOS开发中的网络监控 前言 在开发中,有时候我们需要获取这些信息: 手机是否联网 ...
- Alamofire源码解读系列(八)之安全策略(ServerTrustPolicy)
本篇主要讲解Alamofire中安全验证代码 前言 作为开发人员,理解HTTPS的原理和应用算是一项基本技能.HTTPS目前来说是非常安全的,但仍然有大量的公司还在使用HTTP.其实HTTPS也并不是 ...
- Alamofire源码解读系列(九)之响应封装(Response)
本篇主要带来Alamofire中Response的解读 前言 在每篇文章的前言部分,我都会把我认为的本篇最重要的内容提前讲一下.我更想同大家分享这些顶级框架在设计和编码层次究竟有哪些过人的地方?当然, ...
随机推荐
- AI五子棋 C++ 借助图形库raylib和raygui 设计模式思考过程和实现思路总结
转载请注明 原文链接 :https://www.cnblogs.com/Multya/p/17988499 repo: https://github.com/Satar07/AI_GoBang_Pub ...
- ARC150D - Removing Gacha (树上期望)
Link 题意: 给一棵 \(n\) 个节点的树,称一个点是好的,当且仅当它到根的路径上都是黑色(包括自己).每次在不好的节点中随机选一个把它涂成黑色(不管原来它是否是白的),直到所有点都是好的为止. ...
- Go 跟踪函数调用链,理解代码更直观
Go 跟踪函数调用链,理解代码更直观 目录 Go 跟踪函数调用链,理解代码更直观 一.引入 二.自动获取所跟踪函数的函数名 三.增加 Goroutine 标识 四.让输出的跟踪信息更具层次感 五.利用 ...
- 小白学k8s(5)k8s中的service
k8s中的service service存在的意义 Pod与Service的关系 Port port targetPort nodePort IP Node IP Pod IP Cluster IP ...
- 7.4 Windows驱动开发:内核运用LoadImage屏蔽驱动
在笔者上一篇文章<内核监视LoadImage映像回调>中LyShark简单介绍了如何通过PsSetLoadImageNotifyRoutine函数注册回调来监视驱动模块的加载,注意我这里用 ...
- Docker从认识到实践再到底层原理(二-2)|Namespace+cgroups
前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助. 高质量博客汇总 然后就是博主最近最花时间的一 ...
- 国产数据库TiDB初体验:简单易用,快速上手
最近开始关注国产数据库的发展,为了能从技术人员的角度来实际体验国产中目前最流行的TiDB数据库,从今天起,在官方公布的课程开始正面了解TiDB的设计理念. 看了2小时的入门课程介绍,总体来说,还是有不 ...
- .NET 云原生架构师训练营(模块二 基础巩固 日志)--学习笔记
2.2.2 核心模块--日志 ILogger 的使用 日志的 ID 日志的分类 日志的级别 LoggerProvider 日志的最佳实践 .NET Core 和 ASP.NET Core 中的日志记录 ...
- .NET Core开发实战(第30课:领域事件:提升业务内聚,实现模块解耦)--学习笔记
30 | 领域事件:提升业务内聚,实现模块解耦 我们在领域的抽象层定义了领域事件和领域事件处理的接口 IDomainEvent namespace GeekTime.Domain { public i ...
- 从零开始的react入门教程(五),了解react中的表单,何为受控组件与非受控组件
壹 ❀ 引 我们在从零开始的react入门教程(四),了解常用的条件渲染.列表渲染与独一无二的key一文中介绍了react中常用的条件渲染操作,比如三元运算符,逻辑运算符等,结合react组件或者re ...