A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读（SIGMOD 2021）

本篇博客是对A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation的一些重要idea的解读，原文连接为：A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation (acm.org)
该文重点介绍了同时从data和query中学习联合数据分布的方法。
特点：
- 不做任何独立性假设
- 同时利用data和query训练模型
- 增量更新，更好的时间和空间消耗

基数估计及联合分布相关信息

该部分在笔者另一篇介绍Naru的博客中已经讲述Deep Upsupervised Cardinality Estimation 解读（2019 VLDB） - 茶柒每天要学习 - 博客园 (cnblogs.com) 这里不做过多赘述，本文所用到的模型在data-driven方面的思想与Naru基本一致（包括使用自回归模型，encoding，decoding，progressive sampling）下文的重点是介绍如何用query（监督数据）训练data-driven（无监督模型）。

在自回归模型中加入query信息训练的challenge

现有的自回归模型无法实现从query中学习，这是因为在做反向传播时，梯度无法流经采样的一些离散随机变量（在本文中代表进行范围查询时渐进采样出的一系列点），因此采样过程是不可微的。本文介绍了使用gumbel-softmax方法对采样的点进行重参数化，使之可微的方法。

Gumbel-Softmax Trick

gumbel-softmax是一种重参数化技巧，假设我们知道数据表中某一个属性列的概率分布P，范围查询需要我们在目标范围按照该概率分布采样出一些点{x...}，利用这些采样点对范围选择度进行估计。但是这样采样出来的点有一个问题：x只是按照某种概率分布P直接选择出来的值，并没有一个明确定义公式，这就导致了x虽然与概率P存在某种关联，但是并没有办法对其进行求导，也就不能利用反向传播调整概率分布。
既然问题的原因是没有一个明确的公式，那么我们构造出一个公式，使之得到的结果就是这些采样不就可以解决不可微的问题了吗？我们想要构造的就是下式，即gumbel-max技巧：

\[f(x)=\left\{ \begin{aligned} 1,i=argmax(log(p_j)+g_j) \\0,otherwisee \end{aligned} \right.
\]

其中\(g_i=-log(-log(u_i)),u_i\sim Uniform(0,1)\).被称为Gumbel噪声，这个噪声的作用是使得每次公式产生的结果都不一致因为如果每次都一致就不叫采样了。根据该式我们最终会得到一个one-hot向量，用该向量与待采样的值域空间相乘即可得到采样点。我们注意到上式存在argmax操作，该操作也是不可微的，此时我们用softmax操作代替argmax即可解决问题，而最终方案被称为gumbel-softmax技巧。

损失函数

data-driven 使用交叉熵损失函数
query-driven使用q-error 损失函数*
本文通过一个超参数将两者相结合如下图：

workflow

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读（SIGMOD 2021）的更多相关文章

Fauce：Fast and Accurate Deep Ensembles with Uncertainty for Cardinality Estimation 论文解读（VLDB 2021）
Fauce:Fast and Accurate Deep Ensembles with Uncertainty for Cardinality Estimation 论文解读(VLDB 2021) 本 ...
Deep Upsupervised Cardinality Estimation 解读（2019 VLDB）
Deep Upsupervised Cardinality Estimation 本篇博客是对Deep Upsupervised Cardinality Estimation的解读,原文连接为:htt ...
论文解读(GraphDA)《Data Augmentation for Deep Graph Learning: A Survey》
论文信息论文标题:Data Augmentation for Deep Graph Learning: A Survey论文作者:Kaize Ding, Zhe Xu, Hanghang Tong, ...
Unified shader model
https://en.wikipedia.org/wiki/Unified_shader_model In the field of 3D computer graphics, the Unified ...
Deep High-Resolution Representation Learning for Human Pose Estimation
Deep High-Resolution Representation Learning for Human Pose Estimation 2019-08-30 22:05:59 Paper: CV ...
论文笔记：（NIPS2017）PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
目录一. 存在的问题 1.提取局部特征的能力 2.点云密度不均问题二.解决方案 1.改进特征提取方法: (1)采样层(sampling) (2)分组层(grouping) (3)特征提取层(fea ...
论文解读（SUBLIME）《Towards Unsupervised Deep Graph Structure Learning》
论文信息论文标题:Towards Unsupervised Deep Graph Structure Learning论文作者:Yixin Liu, Yu Zheng, Daokun Zhang, ...
论文解读（DCN）《Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering》
论文信息论文标题:Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering论文作者:Bo Yang, Xi ...
论文解读（IDEC）《Improved Deep Embedded Clustering with Local Structure Preservation》
Paper Information Title:<Improved Deep Embedded Clustering with Local Structure Preservation>A ...

随机推荐

火山引擎MARS-APM Plus x 飞书｜降低线上OOM，提高App性能稳定性
通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的 ...
有关softmax函数代码实现的思考
有关softmax函数代码实现的思考 softmax函数 def softmax2(x): if x.ndim == 2: x = x.T x = x - np.max(x, axis=0) y = ...
Codeforces Round #739 (Div. 3)
A. Dislike of Threes 简单的水题,预处理即可 AC_CODE #include <bits/stdc++.h> using namespace std; templat ...
IDE连接数据库时测试Test Connection 无法点击
问题: IDE连接数据库时测试Test Connection 无法点击解决: IDE缺少对应的驱动第一步: 点击驱动第二步: 下载驱动注意:不同版本的驱动下载位置不同,此版本为2017
Spring @Cacheable 缓存不生效的问题
最近在项目中使用了Ehcache缓存,使用方式是用Spring提供的 @Cacheable 注解的方式,这种方式简单.快速.方便,推荐使用. 在使用的过程中,遇到了缓存不生效的情况,经过分析处理,总结 ...
Linux添加用户组和添加用户
1.用户组添加组:groupadd 组名 [root@Server-n93yom ~]# groupadd dev [root@Server-n93yom ~]# cat /etc/group | ...
常用获取inflate的写法
1. //context:上下文, resource:要转换成view对象的layout的id, root:将layout用root(ViewGroup)包一层作为codify ...
JS实现new关键字的功能
一.前言众所周知:没有对象怎么办?那就new一个! 那么在JS中,当我们new一个对象的时候,这个new关键字内部都干了什么呢? 现在我们就来剖析一下原生JS中new关键字内部的工作原理. 二.原始 ...
python进阶（24）Python字典的底层原理以及字典效率
前言问题1:python中的字典到底是有序还是无序问题2:python中字典的效率如何 python字典底层原理在Python 3.5以前,字典是不能保证顺序的,键值对A先插入字典,键值对B ...
系统C盘空间严重的不足的几个清理方法
大家在电脑使用久了以后,往往会遇到C盘空间不足的问题,这很可能进一步导致磁盘空间不足,软件无法正常运行,甚至电脑严重卡顿等问题. 下面给大家分享一些我自己在C盘空间不足过程中搜集的一些清理C盘空间的实 ...

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读（SIGMOD 2021）

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读（SIGMOD 2021）

基数估计及联合分布相关信息

在自回归模型中加入query信息训练的challenge

Gumbel-Softmax Trick

损失函数

workflow

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读（SIGMOD 2021）的更多相关文章

随机推荐

热门专题