全球厂商之最,华为17篇论文入选国际数据库顶会ICDE
本文分享自华为云社区《全球厂商之最,华为GaussDB&GeminiDB,17篇论文入选国际数据库顶会ICDE》 ,作者:GaussDB 数据库。
5月13-17日,国际数据库顶级学术会议 ICDE 2024 于荷兰乌得勒支举行。华为GaussDB 和GeminiDB 17篇论文入选,成为全球论文入选数量最多的数据库厂商。华为爱丁堡研究所数据库实验室主任Nikolaos Ntarmos发表了题为”Huawei Cloud GaussDB, a Better Way to Database“的演讲,向全球的学术机构和代表介绍了华为GaussDB的技术和商业成果。

ICDE全称为”IEEE International Conference on Data Engineering”(IEEE国际数据工程大会),与SIGMOD、VLDB 并称数据库领域三大顶会,是数据库领域最权威的国际顶级学术会议之一,在国际上享有盛誉并具有广泛的学术影响力。
ICDE收录了各大研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。ICDE 2024是第40届IEEE国际数据工程大会,华为17篇论文的入选,是华为科研团队与外部团队或组织友好合作共同努力的结果。下面将摘选华为在本次大会入选的部分论文,后续将对所有入选的论文进行专题解读。
GaussML: An End-to-End In-database Machine Learning System
《GaussML: An End-to-End In-database Machine Learning System》论文是由清华大学、华为和苏黎世理工大学联合共同完成,通过提升数据库内机器学习算法训练和推理的性能,深度满足用户实时性分析的诉求。该论文获得大会评审组的高度评价,认为其提出了一个全新的机器学习引擎。
原生库内机器学习框架,简称GaussML,将机器学习训练作为执行算子,利用数据库并行和分布式能力,展示出超越业界同类产品10倍以上机器学习推理和训练的性能优势,主要能力包括:
第一,论文首次提出数据库内原生AI机器学习引擎的架构,机器学习算法训练和推理融合在SQL执行流程中,借助数据库的优化器、负载管理、并发处理、分布式并行能力,实现机器学习训练和推理的极致高效;
第二,GaussML同时构建库内AutoML能力,可以自适应进行参数调整,根据负载变化进行模型更正,设计一种端到端模型自动调优的能力,简化用户调整模型参数代价,提升数据库内模型的使用便利;
第三,GaussML通过在数据库内置原生机器学习训练和推理流程,实现端到端自动调优能力,构建完整的库内机器学习引擎,支撑客户业务的智能实时分析。该框架通过提供SQL-like接口,简化数据科学家使用机器学习训练和推理代价,支持常用的机器学习算法,满足绝大多数客户使用。
综上,论文中提出一种全新的机器学习引擎,在多个公开数据集上该引擎表现出卓越的高性能优势,向数据库智能化发展上迈出了更远一步。
GaussDB-Global: A Geographically Distributed Database System
《GaussDB-Global: A Geographically Distributed Database System》论文是华为高斯数据库技术团队的研究成果。论文中提出了一种基于高精度时钟同步方法的分布式事务处理方法,并构建了跨地域分布式的全球数据库系统GaussDB-Global。该论文的主要实现:
第一,采用同步时钟的去中心化方法,地理分布式数据库系统解决了中心化事务管理器的性能瓶颈问题,实现了中心化的事务管理到去中心化分布式事务管理之间无缝过渡,提供了更加灵活、便捷的部署方式,实现一套集群全球化部署。
第二,在分片数据的远程读取和长距离日志传送问题上,地理分布式数据库系统支持在异步副本上读取,强一致性,可调整的新鲜度保证,以及动态负载均衡。在跨地域集群上的实验结果表明,与中心化基线相比,该方法提供了高达14倍的只读性能,标准数据集TPC-C吞吐量高出50%以上。
QCFE: An Efficient Feature Engineering for Query Cost Estimation
《QCFE: An Efficient Feature Engineering for Query Cost Estimation》论文是由哈尔滨工业大学和华为团队共同完成,通过提出了一个高效的特征工程方法(QCFE),解决了现有查询语句评估时的特征工程问题,该方法在时间-准确性效率方面取得显著改进。论文的主要贡献包括:
第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略变量的影响,如数据库旋钮、硬件等,以提高查询成本模型的准确性。
第二,设计了差异传播特征减少方法,通过剪枝无效特征,进一步提高模型训练和推断效率。
第三,引入了简化的SQL模板设计,以提高计算特征快照的时间效率。
第四,在广泛的基准测试中,展示了QCFE相对于现有方法在时间-准确性效率方面的优势,包括TPC-H、job-light和Sysbench等。
综上,该研究的创新点在于提出了一种有效的特征工程方法,能够显著改善查询成本估算的时间和准确性。
TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation
《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》论文是由厦门大学、清华大学和华为共同研究,通过提出一个基于对抗性扰动的工作负载生成框架TRAP,解决了现有的index advisor的鲁棒性评估问题。
TRAP框架能够生成有效的对抗性工作负载,用于评估index advisor的鲁棒性。在index advisor的评估方面,TRAP具有明显优势。研究发现:
第一,通过对抗性工作负载的有效生成,可以准确评估index advisor的鲁棒性,因为这些工作负载不会偏离原始工作负载,但可以识别由于工作负载漂移而导致的性能漏洞。
第二,为设计更具鲁棒性的基于学习的index advisor,采用细粒度的状态表示和候选剪枝策略可以提高性能。
第三,对于设计更具鲁棒性的基于启发式的index advisor,考虑索引选择过程中的索引交互作用和多列索引的使用是至关重要的。
综上,以上发现为index advisor的设计和评估提供了深刻见解,并强调了在实际应用中评估index advisor的重要性。
Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection
《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》论文的问世,是为了帮助时序数据库通过提前感知异常来降低损失。通过设计了一个轻量的基于深度学习的时频掩码自编码器异常检测算法(TFMAE),展示了其在多个公开数据集上的良好性能。该论文被大会评审组高度评价,认为其提出了时序异常检测的新范式,最终无需修改被 ICDE 2024 直接录用。
作为首篇采用时频掩码对比的时序异常检测论文,论文研究围绕以下三点进行:
第一,提出了基于时间域和频率域掩码的时间序列异常检测对比准则,其代替传统重建误差确定异常检测阈值,这是一个不受分布偏移影响的判断准则。
第二,提出了基于窗口的时间域掩码策略和基于幅度的频率域掩码策略以消除序列中潜在的异常观察和模式。因此,TFMAE 是一个抗异常偏置模型。
第三,五个真实世界数据集与两个合成数据集上实验表明,TFMAE 在检测性能与速度方面均取得提升。
综上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用时频掩码对比的时序异常检测论文,对医疗、制造、金融等行业的广泛应用,具有现实推动作用。
本次大会华为入选论文研究方向涉及AI4DB、时序数据库、查询优化、数据库内机器学习算法训练和推理……如此多的科技成果得益于华为长期在数据库前沿技术领域的探索和实践,以及与全球顶尖学术机构共同解决数据库领域世界难题,通过产、学、研、用深度融合,将前沿创新研究融入产品技术,构建健康的数据库产业生态,为客户提供创新的、有竞争力的数据库产品和服务。
未来,华为将在数据库领域持续创新,持续深耕,引领行业发展走出新高度。
全球厂商之最,华为17篇论文入选国际数据库顶会ICDE的更多相关文章
- TDSQL|三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库
好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...
- 网易云安全两篇论文入选计算机视觉顶级会议ICCV
本文由 网易云发布. 10月22日至29日,全球计算机视觉顶尖专家们共聚威尼斯,参加ICCV2017国际计算机视觉大会,就领域内最新成果展开集中研讨,大会论文集也代表了计算机视觉领域最新的发展方向和 ...
- 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台
美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...
- 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践
前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...
- 顶会两篇论文连发,华为云医疗AI低调中崭露头角
摘要:2020年国际医学图像计算和计算机辅助干预会议(MICCAI 2020),论文接收结果已经公布.华为云医疗AI团队和华中科技大学合作的2篇研究成果入选. 同时两篇研究成果被行业顶会收录,华为云医 ...
- Yeslab华为安全HCIE七门之--防火墙高级技术(17篇)
Yeslab 全套华为安全HCIE七门之第三门 防火墙高级技术 课程目录: 华为安全HCIE-第三门-防火墙高级技术(17篇)\1_用户认证_用户_认证域_认证策略.avi 华为安全HCIE- ...
- 国内首篇云厂商 Serverless 论文入选全球顶会:突发流量下,如何加速容器启动?
作者 | 王骜 来源 | Serverless 公众号 导读 USENIX ATC (USENIX Annual Technical Conference) 学术会议是计算机系统领域的顶级会议,入 ...
- PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)
100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...
- 全球分布式数据库:Google Spanner(论文翻译)
本文由厦门大学计算机系教师林子雨翻译,翻译质量很高,本人只对极少数翻译得不太恰当的地方进行了修改. [摘要]:Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个 ...
- ICCV 2019|70 篇论文抢先读,含目标检测/自动驾驶/GCN/等(提供PDF下载)
虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...
随机推荐
- [HAOI2007,P2216,BZOJ1047]理想的正方形单调队列解法
题目描述 有一个 \(a \times b\) 的整数组成的矩阵,现请你从中找出一个 \(n \times n\) 的正方形区域,使得该区域所有数中的最大值和最小值的差最小. 输入格式 第一行为 \( ...
- centos部署Django三:编写相关配置文件及启动服务
1. 进入到项目的根目录,编写 uwsgi.xml 配置文件 *:centos用的不是 uwsgi.ini,而是 uwsgi.xml <uwsgi> <socket>127.0 ...
- mysql 重新整理——配置文件[一]
前言 对mysql 进行从新整理一下,仅做参考,如有任何不对望指出. 正文 mysql 一般分windows和linux,但是他们的运行配置其实是一样的,所以在此不做区分. 直接上一个大体的图: 我个 ...
- 实训篇-Html-多媒体标签
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- State 和 Props的理解以及区别
一.state 一个组件的显示形态可以由数据状态和外部参数所决定,而数据状态就是state,一般在 constructor 中初始化 当需要修改里面的值的状态需要通过调用setState来改变,从而达 ...
- 在RockyLinux 9.2环境中编译CockroachDB 23.1
目的 CockroachDB自 23.1开始,编译模式逐步放弃了Makefile,改用Bazel构建.实际上在23.1代码执行make buildshort 能够成功,但make build应该就会因 ...
- 什么是token,为什么需要token
1.为什么需要token 随着互联网的发展,为了更安全,以及更好的用户体验,逐渐产生了token这个技术方案 之所以使用token是因为http/https协议本身是无状态的,不能进行信息的存储 (c ...
- ClkLog自定义事件分析登场
ClkLog的自定义事件分析功能在大家满满的期待下终于发布了. 这次更新我们添加了[用户关联].[事件采集].[事件分析]三大块功能点. 本次上线的自定义事件分析可以让用户根据自身业务场景创建不同维 ...
- 庖丁解InnoDB之REDO LOG
简介: 数据库故障恢复机制的前世今生一文中提到,今生磁盘数据库为了在保证数据库的原子性(A, Atomic) 和持久性(D, Durability)的同时,还能以灵活的刷盘策略来充分利用磁盘顺序写的 ...
- 阿里云力夺FewCLUE榜首!知识融入预训练+小样本学习的实战解析
简介: 7月8日,中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果,阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队,在大模型和无参数限制模型双赛道总成绩第一名,决赛答辩总 ...