ICDM'23 BICE论文解读:基于双向LSTM和集成学习的模型框架
本文分享自华为云社区《ICDM'23 BICE论文解读》,作者:云数据库创新Lab。
导读
本文《Efficient Cardinality and Cost Estimation with Bidirectional Compressor-based Ensemble Learning》是由华为云数据库创新Lab联合电子科技大学数据与智能实验室发表在顶会ICDM’23的长文。ICDM是数据挖掘领域顶级学术会议之一。本届会议共收到投稿1003篇,其中录用长文94篇,长文录取率约为9.37%,总体录取率约为19.94%。
摘要
查询优化器在数据库管理系统中有着非常重要的作用,而基数和代价估计是查询优化器能否输出高质量执行计划的基础。为增强基数和代价估计,我们提出了一种基于双向LSTM和集成学习的模型框架,名为BICE。具体地,我们设计了4个自编码器组成特征提取器对查询计划中不同种类的丰富信息进行提取与编码。我们通过图嵌入算法学习表与表之间的关联,并作为连接条件编码的依据。之后,我们建立了双向LSTM对物理计划进行学习。此外,我们通过基于贝叶斯神经网络结合主动学习抽取不同的数据样本集合,以此来提高模型在复杂查询上的下性能表现。最后,我们在公开数据集上进行了大量的实验以论证BICE的有效性。
问题描述
一条查询语句q中包含若干个连接条件={1,2,...,}J={J1,J2,...,Jm}和若干个谓词过滤条件={1,2,...,}F={F1,F2,...,Fm}。通过DBMS的查询优化器,我们可以获取查询语句q对应的查询计划p。本文要解决的问题是:给定一条查询语句q,将其查询计划p输入到训练过的函数f中,得到其基数与执行时间,即f(q)=(C(q),T(q))。C(q)和T(q)分别表示基数与执行时间。
特征编码
首先,本文通过深度优先搜索(DFS)得到查询计划对应的节点序列。之后,本文设计了特征编码器用以抽取查询计划中蕴含的丰富信息,其由四个子编码器组成,分别是连接编码器、类型编码器、谓词编码器和信息编码器。下面,本文对各个子编码器的细节进行介绍。
连接编码器
连接编码器学习并编码查询语句中的若干连接条件J。先前的模型(如MSCN等)大多基于one-hot编码方法对连接条件进行规则编码。这种方法的最大缺陷在于,无法表示表和列之间的结构关系。因此,本文首先应用图嵌入算法学习数据库中的列关系。具体来讲,本文采用node2vec算法:ei=node2vec(ci)。ci表示数据库中的列,ei表示其对应的嵌入向量。之后,本文将连接条件中对应的两个列进行拼接得到连接条件对应的编码。特别地,本文全局地定义了列的顺序,以保证连接条件集合不会收到次序的影响。
类型编码器
类型编码器对查询计划中的节点类型进行编码。与上文介绍的连接条件不同,节点类型的数量在数据库管理系统中通常是有限的。因此,本文对于节点类型的编码方法和先前的许多模型(MSCN、QPPNet和TPool等)相同,即采用one-hot编码方法处理节点类型。
谓词编码器
谓词是查询中最为复杂的信息之一,其直接影响着许多操作(如顺序扫描等)的基数大小,进而导致查询代价的不同。为增强对谓词信息的学习,本文基于查询范围嵌入和并行深度神经网络设计了谓词编码器,下面对二者分别进行介绍。
对于查询范围嵌入,本文采用两个向量[V1max,V2max,...,Vncmax]和[V1min,V2min,...,Vncmin]用以进行范围表示,其中nc表示列的数量。具体规则定义如下:
- 若ci>value,则将Vimin的值设置为value。
- 若ci<value,则将Vimax的值设置为value。
- 若ci=value,则将Vimin和Vimax的值设置为value。
其中,ci为谓词中的列,value为对应的参数值。通过应用上述规则,我们能够得到查询对应的最大范围向量Vmax和最小范围向量Vmin。之后,本文建立了两个并行的神经网络学习Vmax和Vmin,将学习得到的嵌入向量进行拼接得到谓词对应的编码,并作为谓词编码器的输出。
信息编码器
查询计划树中不仅包括了原始查询语句的相关信息,同时还包括了查询优化器估计的若干信息,包括基数和代价等。虽然这些估计的信息在多数情况下是存在误差的,但是学习这种估计信息的错误分布是一种十分高效且有效的方法。因此本文设计了信息编码器,其将查询优化器估计的基数和代价经过归一化处理后作为特征编码的一部分。
最后,特征编码器整合上述四个子编码器的输出,得到查询计划对应的特征编码。
基于集成学习的估计模型
压缩器
压缩器学习特征编码器输出的特征向量,其输出一个固定长度的嵌入向量作为后续估计模型的输入。为了更好地学习特征编码中蕴含的丰富信息,本文建立了双向的LSTM模型处理特征编码。其具体的训练方法需结合估计模型,在本文下节中进行介绍。
贝叶斯神经网络
多数深度学习模型采用最大似然估计(MLE)基于当前观察到的数据得到最优的模型参数,这种方法假定了观察到的数据分布与全部的数据分布是相同或相似的。而贝叶斯神经网络则与此不同,其基于最大后验概率(MAP)的思想,通过引入不确定性来衡量模型对样本的置信程度。在基数和代价估计中,复杂的查询是频繁出现的。但是现有的基于方法大多基于MLE思想进行学习,无法在得到真实标签之前衡量模型在这些复杂查询上的表现。并且单一的模型难以学习全部查询的数据分布。因此,本文引入贝叶斯神经网络来衡量模型对各类样本的置信度。具体来讲,BICE采用MC_Dropout的思想建立了包括3层线性神经网络的贝叶斯模型以进行初步训练。定义如下:
基于上述的损失函数定义,我们同时更新压缩器中的模型参数,至此完成了BICE的初步训练。
主动学习
完成初步训练后,为解决上文提到的单一模型难以适应复杂多样的工作负载的问题,本文采用主动学习的思想训练得到集成学习模型。具体来讲,本文共设计了四种数据抽样策略构成主动学习。分别是:(1)基于贝叶斯神经神经网络的置信度。(2)基于置信度和最大置信上界。(3)基于多样性与置信度。(4)基于多样新与最大置信上界。 本文采用贝叶斯神经网络在数据样本上输出的方差来衡量其置信度。用最大的qerror表示最大置信上界。此外,本文通过对数据样本进行聚类,之后在每个类别中进行样本抽取,以此来表示数据的多样性。在完成上述数据抽样后,本文建立了4个对应的估计模型进行学习。值得注意的时,在这一阶段的训练中,压缩器的参数并不会更新。因此对于各个数据样本,我们仅需利用上一阶段压缩器输出的样本的嵌入向量即可。仅训练估计模型(由3层线性神经网络组成)的过程是高效的。
实验
本文基于IMDB和TPC-H数据集进行了相关实验,其中IMDB数据集还包括了三个公开的测试负载:(1)JOB-light;(2)Scale和(3)Synthesis。
实验结果 我们在各个数据集上与相关的方法进行了对比,包括基数估计和代价估计,总体效果如下表所示。
实验表明BICE在绝大多数情况下均取得了最优表现。之后,本文将BICE与其他模型嵌入到查询优化器中,替代查询优化器所估计的基数,以进行端到端的测试,实验结果如下表所示。
实验表明,BICE在端到端测试中也有着最优的表现。此外,我们还进行了针对BICE的消融实验以论证各个组件的有效性,如下图所示。
上述消融实验表明,BICE的各个组件均能够有效地提升模型的表现。
结论
本文建立了一个基于双向LSTM和集成学习的模型框架,BICE。其能够进行有效的基数估计和代价估计。通过运用贝叶斯神经网络和主动学习,我们建立了表现更加优异的集成学习模型,其能够适应更加复杂多样的工作负载类型。实验研究表明,BICE在大量公开数据集上均有着更加优异的表现。
ICDM'23 BICE论文解读:基于双向LSTM和集成学习的模型框架的更多相关文章
- 基于双向LSTM和迁移学习的seq2seq核心实体识别
http://spaces.ac.cn/archives/3942/ 暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛,最终的结果还不错,遂记录一下.模型的效果不是最好的,但是胜在“端到端”, ...
- 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注
http://spaces.ac.cn/archives/3924/ 关于字标注法 上一篇文章谈到了分词的字标注法.要注意字标注法是很有潜力的,要不然它也不会在公开测试中取得最优的成绩了.在我看来,字 ...
- 【RS】:论文《Neural Collaborative Filtering》的思路及模型框架
[论文的思路] NCF 框架如上: 1.输入层:首先将输入的user.item表示为二值化的稀疏向量(用one-hot encoding) 2.嵌入层(embedding):将稀疏表示映射为稠密向量( ...
- 端到端文本识别CRNN论文解读
CRNN 论文: An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Applica ...
- PaddlePaddle︱开发文档中学习情感分类(CNN、LSTM、双向LSTM)、语义角色标注
PaddlePaddle出教程啦,教程一部分写的很详细,值得学习. 一期涉及新手入门.识别数字.图像分类.词向量.情感分析.语义角色标注.机器翻译.个性化推荐. 二期会有更多的图像内容. 随便,帮国产 ...
- 论文解读:3D Hand Shape and Pose Estimation from a Singl RGB Image
本文链接:https://blog.csdn.net/williamyi96/article/details/89207640由于最近做到了一些 3D Hand Pose Estimation 相关的 ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...
- 解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法
摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架. 本文分享自华为云社区<解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法&g ...
- NIPS2018最佳论文解读:Neural Ordinary Differential Equations
NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32 雷锋网 AI 科技评论按,不久前,NeurI ...
随机推荐
- .NET开源且好用的权限工作流管理系统
前言 系统权限管理.工作流是企业应用开发中很常见的功能,虽说开发起来难度不大,但是假如从零开始开发一个完整的权限管理和工作流平台的话也是比较耗费时间的.今天推荐一款.NET开源且好用的权限工作流管理系 ...
- Win10操作系统安装Python
1 Python解释器下载 1.1 安装环境 Windows 10 专业工作站版22H2 python-3.9.6-amd64.exe 1.2 下载地址 Python官网:https://www.py ...
- 带圆角的虚线边框?CSS 不在话下
今天,我们来看这么一个非常常见的切图场景,我们需要一个带圆角的虚线边框,像是这样: 这个我们使用 CSS 还是可以轻松解决的,代码也很简单,核心代码: div { border-radius: 25p ...
- 从零玩转七牛云之CDN-qiniuyunzhicdn
title: 从零玩转七牛云之CDN date: 2022-03-27 19:14:43.036 updated: 2022-04-10 14:13:27.322 url: https://www.y ...
- dotnet-dump工具使用
介绍 dotnet-dump 是 .NET Core 官方工具之一,用于生成和分析 .NET Core 进程的转储文件(dump file).它可以帮助开发人员在应用程序发生故障或性能问题时进行故障排 ...
- libGDX游戏开发之弹窗(五)
libGDX游戏开发之弹窗(五) libGDX系列,游戏开发有unity3D巴拉巴拉的,为啥还用java开发?因为我是Java程序员emm-国内用libgdx比较少,多数情况需要去官网和google找 ...
- 平衡树——AVL算法
平衡树--AVL算法 平衡树建立在二叉搜索树的基础上,加入了两侧子树大小相对平衡的特性而避免了很多情况下的算法退化.这里AVL算法实现的AVL树就是平衡树的一种. 1.二叉搜索树 在说平衡树之前我们得 ...
- 数据库面试要点:关于MySQL数据库千万级数据查询和存储
摘要:百万级.千万级数据处理,核心关键在于数据存储方案设计,存储方案设计的是否合理,直接影响到数据CRUD操作.总体设计可以考虑一下几个方面进行设计考虑: 数据存储结构设计:索引设计:数据主键设计:查 ...
- 数仓集群管理:单节点故障RTO机制分析
摘要:大规模分布式系统中的故障无法避免.发生单点故障时,集群状态和业务是如何恢复的? 本文分享自华为云社区<GaussDB (DWS) 集群管理系列:单节点故障RTO机制分析(集群状态恢复篇)& ...
- “互联网+”大赛之智慧校园 赛题攻略:你的智慧校园,WeLink帮你来建
摘要:本赛题的核心就是借助华为云WeLink的中台服务能力/开发工具等,结合学校的具体的高价值场景,开发出WeLink小程序,方便师生的学习与生活. 本文分享自华为云社区<"互联网+& ...