本文分享自华为云社区《全球厂商之最,华为GaussDB&GeminiDB,17篇论文入选国际数据库顶会ICDE》 ,作者:GaussDB 数据库。

5月13-17日,国际数据库顶级学术会议 ICDE 2024 于荷兰乌得勒支举行。华为GaussDB 和GeminiDB 17篇论文入选,成为全球论文入选数量最多的数据库厂商。华为爱丁堡研究所数据库实验室主任Nikolaos Ntarmos发表了题为”Huawei Cloud GaussDB, a Better Way to Database“的演讲,向全球的学术机构和代表介绍了华为GaussDB的技术和商业成果。

ICDE全称为”IEEE International Conference on Data Engineering”(IEEE国际数据工程大会),与SIGMOD、VLDB 并称数据库领域三大顶会,是数据库领域最权威的国际顶级学术会议之一,在国际上享有盛誉并具有广泛的学术影响力。

ICDE收录了各大研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。ICDE 2024是第40届IEEE国际数据工程大会,华为17篇论文的入选,是华为科研团队与外部团队或组织友好合作共同努力的结果。下面将摘选华为在本次大会入选的部分论文,后续将对所有入选的论文进行专题解读。

GaussML: An End-to-End In-database Machine Learning System

《GaussML: An End-to-End In-database Machine Learning System》论文是由清华大学、华为和苏黎世理工大学联合共同完成,通过提升数据库内机器学习算法训练和推理的性能,深度满足用户实时性分析的诉求。该论文获得大会评审组的高度评价,认为其提出了一个全新的机器学习引擎。

原生库内机器学习框架,简称GaussML,将机器学习训练作为执行算子,利用数据库并行和分布式能力,展示出超越业界同类产品10倍以上机器学习推理和训练的性能优势,主要能力包括:

第一,论文首次提出数据库内原生AI机器学习引擎的架构,机器学习算法训练和推理融合在SQL执行流程中,借助数据库的优化器、负载管理、并发处理、分布式并行能力,实现机器学习训练和推理的极致高效;

第二,GaussML同时构建库内AutoML能力,可以自适应进行参数调整,根据负载变化进行模型更正,设计一种端到端模型自动调优的能力,简化用户调整模型参数代价,提升数据库内模型的使用便利;

第三,GaussML通过在数据库内置原生机器学习训练和推理流程,实现端到端自动调优能力,构建完整的库内机器学习引擎,支撑客户业务的智能实时分析。该框架通过提供SQL-like接口,简化数据科学家使用机器学习训练和推理代价,支持常用的机器学习算法,满足绝大多数客户使用。

综上,论文中提出一种全新的机器学习引擎,在多个公开数据集上该引擎表现出卓越的高性能优势,向数据库智能化发展上迈出了更远一步。

GaussDB-Global: A Geographically Distributed Database System

《GaussDB-Global: A Geographically Distributed Database System》论文是华为高斯数据库技术团队的研究成果。论文中提出了一种基于高精度时钟同步方法的分布式事务处理方法,并构建了跨地域分布式的全球数据库系统GaussDB-Global。该论文的主要实现:

第一,采用同步时钟的去中心化方法,地理分布式数据库系统解决了中心化事务管理器的性能瓶颈问题,实现了中心化的事务管理到去中心化分布式事务管理之间无缝过渡,提供了更加灵活、便捷的部署方式,实现一套集群全球化部署。

第二,在分片数据的远程读取和长距离日志传送问题上,地理分布式数据库系统支持在异步副本上读取,强一致性,可调整的新鲜度保证,以及动态负载均衡。在跨地域集群上的实验结果表明,与中心化基线相比,该方法提供了高达14倍的只读性能,标准数据集TPC-C吞吐量高出50%以上。

QCFE: An Efficient Feature Engineering for Query Cost Estimation

《QCFE: An Efficient Feature Engineering for Query Cost Estimation》论文是由哈尔滨工业大学和华为团队共同完成,通过提出了一个高效的特征工程方法(QCFE),解决了现有查询语句评估时的特征工程问题,该方法在时间-准确性效率方面取得显著改进。论文的主要贡献包括:

第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略变量的影响,如数据库旋钮、硬件等,以提高查询成本模型的准确性。

第二,设计了差异传播特征减少方法,通过剪枝无效特征,进一步提高模型训练和推断效率。

第三,引入了简化的SQL模板设计,以提高计算特征快照的时间效率。

第四,在广泛的基准测试中,展示了QCFE相对于现有方法在时间-准确性效率方面的优势,包括TPC-H、job-light和Sysbench等。

综上,该研究的创新点在于提出了一种有效的特征工程方法,能够显著改善查询成本估算的时间和准确性。

TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation

《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》论文是由厦门大学、清华大学和华为共同研究,通过提出一个基于对抗性扰动的工作负载生成框架TRAP,解决了现有的index advisor的鲁棒性评估问题。

TRAP框架能够生成有效的对抗性工作负载,用于评估index advisor的鲁棒性。在index advisor的评估方面,TRAP具有明显优势。研究发现:

第一,通过对抗性工作负载的有效生成,可以准确评估index advisor的鲁棒性,因为这些工作负载不会偏离原始工作负载,但可以识别由于工作负载漂移而导致的性能漏洞。

第二,为设计更具鲁棒性的基于学习的index advisor,采用细粒度的状态表示和候选剪枝策略可以提高性能。

第三,对于设计更具鲁棒性的基于启发式的index advisor,考虑索引选择过程中的索引交互作用和多列索引的使用是至关重要的。

综上,以上发现为index advisor的设计和评估提供了深刻见解,并强调了在实际应用中评估index advisor的重要性。

Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection

《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》论文的问世,是为了帮助时序数据库通过提前感知异常来降低损失。通过设计了一个轻量的基于深度学习的时频掩码自编码器异常检测算法(TFMAE),展示了其在多个公开数据集上的良好性能。该论文被大会评审组高度评价,认为其提出了时序异常检测的新范式,最终无需修改被 ICDE 2024 直接录用。

作为首篇采用时频掩码对比的时序异常检测论文,论文研究围绕以下三点进行:

第一,提出了基于时间域和频率域掩码的时间序列异常检测对比准则,其代替传统重建误差确定异常检测阈值,这是一个不受分布偏移影响的判断准则。

第二,提出了基于窗口的时间域掩码策略和基于幅度的频率域掩码策略以消除序列中潜在的异常观察和模式。因此,TFMAE 是一个抗异常偏置模型。

第三,五个真实世界数据集与两个合成数据集上实验表明,TFMAE 在检测性能与速度方面均取得提升。

综上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用时频掩码对比的时序异常检测论文,对医疗、制造、金融等行业的广泛应用,具有现实推动作用。

本次大会华为入选论文研究方向涉及AI4DB、时序数据库、查询优化、数据库内机器学习算法训练和推理……如此多的科技成果得益于华为长期在数据库前沿技术领域的探索和实践,以及与全球顶尖学术机构共同解决数据库领域世界难题,通过产、学、研、用深度融合,将前沿创新研究融入产品技术,构建健康的数据库产业生态,为客户提供创新的、有竞争力的数据库产品和服务。

未来,华为将在数据库领域持续创新,持续深耕,引领行业发展走出新高度。

点击关注,第一时间了解华为云新鲜技术~

全球厂商之最,华为17篇论文入选国际数据库顶会ICDE的更多相关文章

  1. TDSQL|三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库

    好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...

  2. 网易云安全两篇论文入选计算机视觉顶级会议ICCV

    本文由  网易云发布. 10月22日至29日,全球计算机视觉顶尖专家们共聚威尼斯,参加ICCV2017国际计算机视觉大会,就领域内最新成果展开集中研讨,大会论文集也代表了计算机视觉领域最新的发展方向和 ...

  3. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  4. 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践

    前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...

  5. 顶会两篇论文连发,华为云医疗AI低调中崭露头角

    摘要:2020年国际医学图像计算和计算机辅助干预会议(MICCAI 2020),论文接收结果已经公布.华为云医疗AI团队和华中科技大学合作的2篇研究成果入选. 同时两篇研究成果被行业顶会收录,华为云医 ...

  6. Yeslab华为安全HCIE七门之--防火墙高级技术(17篇)

    Yeslab 全套华为安全HCIE七门之第三门 防火墙高级技术     课程目录: 华为安全HCIE-第三门-防火墙高级技术(17篇)\1_用户认证_用户_认证域_认证策略.avi 华为安全HCIE- ...

  7. 国内首篇云厂商 Serverless 论文入选全球顶会:突发流量下,如何加速容器启动?

    作者 | 王骜 来源 | Serverless 公众号 导读 ​ USENIX ATC (USENIX Annual Technical Conference) 学术会议是计算机系统领域的顶级会议,入 ...

  8. PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)

    100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...

  9. 全球分布式数据库:Google Spanner(论文翻译)

    本文由厦门大学计算机系教师林子雨翻译,翻译质量很高,本人只对极少数翻译得不太恰当的地方进行了修改. [摘要]:Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个 ...

  10. ICCV 2019|70 篇论文抢先读,含目标检测/自动驾驶/GCN/等(提供PDF下载)

    虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...

随机推荐

  1. springboot整合redis之发送手机验证码

    阿里云服务发送手机短信验证码-----(第二篇) 文章概述:springboot整合redis之发送手机验证码注册登录 注:搭建springboot项目可以参考这篇文章: 前言:短信验证码是通过发送验 ...

  2. mysql统计查询和索引练习

    课程数据表course SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS = 0; -- ---------------------------- -- Table ...

  3. "鸿蒙生态专家面对面"三月专场等你前来!

  4. Harbor高可用集群设计及部署(基于离线安装方式)

    原文转自:Harbor高可用集群设计及部署(基于离线安装方式) 架构至美 2022-09-05 09:28 发表于北京 编者荐语: 纯干货.实用,推荐系数5颗星. 以下文章来源于Harbor进阶实战  ...

  5. UML 哲学之道——类图[三]

    前言 简单整理一些uml中的类图. 正文 类的基本表示法: 名称.属性(类型.可见性).方法(参数.返回值.可见性) 想上面这样,第一行是名称,第二行是属性,第三行是方法 可见性: 表示public ...

  6. 堡垒机安装pytorch,mmcv,mmclassification,并训练自己的数据集

    堡垒机创建conda环境,并激活进入环境 conda create -n mmclassification python=3.7 conda activate mmclassification 堡垒机 ...

  7. 【pytorch学习】之线性代数

    3 线性代数 3.1 标量 如果你曾经在餐厅支付餐费,那么应该已经知道一些基本的线性代数,比如在数字间相加或相乘.例如,北京的温度为52◦F(华氏度,除摄氏度外的另一种温度计量单位).严格来说,仅包含 ...

  8. RocketMQ 消息集成:多类型业务消息-普通消息

    简介: 本篇将从业务集成场景的诉求开始,介绍 RocketMQ 作为业务消息集成方案的核心能力和优势,通过功能场景.应用案例以及最佳实践等角度介绍 RocketMQ 普通消息类型的使用. 引言 Apa ...

  9. MSE 治理中心重磅升级-流量治理、数据库治理、同 AZ 优先

    简介: 本次 MSE 治理中心在限流降级.数据库治理及同 AZ 优先方面进行了重磅升级,对微服务治理的弹性.依赖中间件的稳定性及流量调度的性能进行全面增强,致力于打造云原生时代的微服务治理平台. 作者 ...

  10. 【走进RDS】之SQL Server性能诊断案例分析

    简介: 数据库性能诊断不仅对其数据库技能要求较高,而且需要大量的前期准备工作,如收集各种性能基线.性能指标和慢SQL日志等,尤其是面对多数据库性能调优时,往往事倍功半. 客户的困扰 前几天某程序员小王 ...