本文分享自华为云社区《全球厂商之最,华为GaussDB&GeminiDB,17篇论文入选国际数据库顶会ICDE》 ,作者:GaussDB 数据库。

5月13-17日,国际数据库顶级学术会议 ICDE 2024 于荷兰乌得勒支举行。华为GaussDB 和GeminiDB 17篇论文入选,成为全球论文入选数量最多的数据库厂商。华为爱丁堡研究所数据库实验室主任Nikolaos Ntarmos发表了题为”Huawei Cloud GaussDB, a Better Way to Database“的演讲,向全球的学术机构和代表介绍了华为GaussDB的技术和商业成果。

ICDE全称为”IEEE International Conference on Data Engineering”(IEEE国际数据工程大会),与SIGMOD、VLDB 并称数据库领域三大顶会,是数据库领域最权威的国际顶级学术会议之一,在国际上享有盛誉并具有广泛的学术影响力。

ICDE收录了各大研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。ICDE 2024是第40届IEEE国际数据工程大会,华为17篇论文的入选,是华为科研团队与外部团队或组织友好合作共同努力的结果。下面将摘选华为在本次大会入选的部分论文,后续将对所有入选的论文进行专题解读。

GaussML: An End-to-End In-database Machine Learning System

《GaussML: An End-to-End In-database Machine Learning System》论文是由清华大学、华为和苏黎世理工大学联合共同完成,通过提升数据库内机器学习算法训练和推理的性能,深度满足用户实时性分析的诉求。该论文获得大会评审组的高度评价,认为其提出了一个全新的机器学习引擎。

原生库内机器学习框架,简称GaussML,将机器学习训练作为执行算子,利用数据库并行和分布式能力,展示出超越业界同类产品10倍以上机器学习推理和训练的性能优势,主要能力包括:

第一,论文首次提出数据库内原生AI机器学习引擎的架构,机器学习算法训练和推理融合在SQL执行流程中,借助数据库的优化器、负载管理、并发处理、分布式并行能力,实现机器学习训练和推理的极致高效;

第二,GaussML同时构建库内AutoML能力,可以自适应进行参数调整,根据负载变化进行模型更正,设计一种端到端模型自动调优的能力,简化用户调整模型参数代价,提升数据库内模型的使用便利;

第三,GaussML通过在数据库内置原生机器学习训练和推理流程,实现端到端自动调优能力,构建完整的库内机器学习引擎,支撑客户业务的智能实时分析。该框架通过提供SQL-like接口,简化数据科学家使用机器学习训练和推理代价,支持常用的机器学习算法,满足绝大多数客户使用。

综上,论文中提出一种全新的机器学习引擎,在多个公开数据集上该引擎表现出卓越的高性能优势,向数据库智能化发展上迈出了更远一步。

GaussDB-Global: A Geographically Distributed Database System

《GaussDB-Global: A Geographically Distributed Database System》论文是华为高斯数据库技术团队的研究成果。论文中提出了一种基于高精度时钟同步方法的分布式事务处理方法,并构建了跨地域分布式的全球数据库系统GaussDB-Global。该论文的主要实现:

第一,采用同步时钟的去中心化方法,地理分布式数据库系统解决了中心化事务管理器的性能瓶颈问题,实现了中心化的事务管理到去中心化分布式事务管理之间无缝过渡,提供了更加灵活、便捷的部署方式,实现一套集群全球化部署。

第二,在分片数据的远程读取和长距离日志传送问题上,地理分布式数据库系统支持在异步副本上读取,强一致性,可调整的新鲜度保证,以及动态负载均衡。在跨地域集群上的实验结果表明,与中心化基线相比,该方法提供了高达14倍的只读性能,标准数据集TPC-C吞吐量高出50%以上。

QCFE: An Efficient Feature Engineering for Query Cost Estimation

《QCFE: An Efficient Feature Engineering for Query Cost Estimation》论文是由哈尔滨工业大学和华为团队共同完成,通过提出了一个高效的特征工程方法(QCFE),解决了现有查询语句评估时的特征工程问题,该方法在时间-准确性效率方面取得显著改进。论文的主要贡献包括:

第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略变量的影响,如数据库旋钮、硬件等,以提高查询成本模型的准确性。

第二,设计了差异传播特征减少方法,通过剪枝无效特征,进一步提高模型训练和推断效率。

第三,引入了简化的SQL模板设计,以提高计算特征快照的时间效率。

第四,在广泛的基准测试中,展示了QCFE相对于现有方法在时间-准确性效率方面的优势,包括TPC-H、job-light和Sysbench等。

综上,该研究的创新点在于提出了一种有效的特征工程方法,能够显著改善查询成本估算的时间和准确性。

TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation

《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》论文是由厦门大学、清华大学和华为共同研究,通过提出一个基于对抗性扰动的工作负载生成框架TRAP,解决了现有的index advisor的鲁棒性评估问题。

TRAP框架能够生成有效的对抗性工作负载,用于评估index advisor的鲁棒性。在index advisor的评估方面,TRAP具有明显优势。研究发现:

第一,通过对抗性工作负载的有效生成,可以准确评估index advisor的鲁棒性,因为这些工作负载不会偏离原始工作负载,但可以识别由于工作负载漂移而导致的性能漏洞。

第二,为设计更具鲁棒性的基于学习的index advisor,采用细粒度的状态表示和候选剪枝策略可以提高性能。

第三,对于设计更具鲁棒性的基于启发式的index advisor,考虑索引选择过程中的索引交互作用和多列索引的使用是至关重要的。

综上,以上发现为index advisor的设计和评估提供了深刻见解,并强调了在实际应用中评估index advisor的重要性。

Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection

《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》论文的问世,是为了帮助时序数据库通过提前感知异常来降低损失。通过设计了一个轻量的基于深度学习的时频掩码自编码器异常检测算法(TFMAE),展示了其在多个公开数据集上的良好性能。该论文被大会评审组高度评价,认为其提出了时序异常检测的新范式,最终无需修改被 ICDE 2024 直接录用。

作为首篇采用时频掩码对比的时序异常检测论文,论文研究围绕以下三点进行:

第一,提出了基于时间域和频率域掩码的时间序列异常检测对比准则,其代替传统重建误差确定异常检测阈值,这是一个不受分布偏移影响的判断准则。

第二,提出了基于窗口的时间域掩码策略和基于幅度的频率域掩码策略以消除序列中潜在的异常观察和模式。因此,TFMAE 是一个抗异常偏置模型。

第三,五个真实世界数据集与两个合成数据集上实验表明,TFMAE 在检测性能与速度方面均取得提升。

综上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用时频掩码对比的时序异常检测论文,对医疗、制造、金融等行业的广泛应用,具有现实推动作用。

本次大会华为入选论文研究方向涉及AI4DB、时序数据库、查询优化、数据库内机器学习算法训练和推理……如此多的科技成果得益于华为长期在数据库前沿技术领域的探索和实践,以及与全球顶尖学术机构共同解决数据库领域世界难题,通过产、学、研、用深度融合,将前沿创新研究融入产品技术,构建健康的数据库产业生态,为客户提供创新的、有竞争力的数据库产品和服务。

未来,华为将在数据库领域持续创新,持续深耕,引领行业发展走出新高度。

点击关注,第一时间了解华为云新鲜技术~

全球厂商之最,华为17篇论文入选国际数据库顶会ICDE的更多相关文章

  1. TDSQL|三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库

    好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...

  2. 网易云安全两篇论文入选计算机视觉顶级会议ICCV

    本文由  网易云发布. 10月22日至29日,全球计算机视觉顶尖专家们共聚威尼斯,参加ICCV2017国际计算机视觉大会,就领域内最新成果展开集中研讨,大会论文集也代表了计算机视觉领域最新的发展方向和 ...

  3. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  4. 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践

    前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...

  5. 顶会两篇论文连发,华为云医疗AI低调中崭露头角

    摘要:2020年国际医学图像计算和计算机辅助干预会议(MICCAI 2020),论文接收结果已经公布.华为云医疗AI团队和华中科技大学合作的2篇研究成果入选. 同时两篇研究成果被行业顶会收录,华为云医 ...

  6. Yeslab华为安全HCIE七门之--防火墙高级技术(17篇)

    Yeslab 全套华为安全HCIE七门之第三门 防火墙高级技术     课程目录: 华为安全HCIE-第三门-防火墙高级技术(17篇)\1_用户认证_用户_认证域_认证策略.avi 华为安全HCIE- ...

  7. 国内首篇云厂商 Serverless 论文入选全球顶会:突发流量下,如何加速容器启动?

    作者 | 王骜 来源 | Serverless 公众号 导读 ​ USENIX ATC (USENIX Annual Technical Conference) 学术会议是计算机系统领域的顶级会议,入 ...

  8. PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)

    100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...

  9. 全球分布式数据库:Google Spanner(论文翻译)

    本文由厦门大学计算机系教师林子雨翻译,翻译质量很高,本人只对极少数翻译得不太恰当的地方进行了修改. [摘要]:Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个 ...

  10. ICCV 2019|70 篇论文抢先读,含目标检测/自动驾驶/GCN/等(提供PDF下载)

    虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...

随机推荐

  1. 动态规划(三)——线性dp

    一.概念 具有线性阶段划分的动态规划算法叫作线性动态规划(简称线性DP).若状态包含多个维度,则每个维度都是线性划分的阶段,也属于线性DP,如下图所示: 二.线性dp的三大经典例题 1.LIS问题:求 ...

  2. 我用这10招,能减少了80%的BUG

    前言 对于大部分程序员来说,主要的工作时间是在开发和修复BUG. 有可能修改了一个BUG,会导致几个新BUG的产生,不断循环. 那么,有没有办法能够减少BUG,保证代码质量,提升工作效率? 答案是肯定 ...

  3. 在RockyLinux 9.3环境中采用RPM模式部署Oracle 19C

    在RockyLinux 9.3环境中采用RPM模式部署Oracle 19C 用途 在开发数据库系统时,可以验证功能是否与Oracle的表现一致,验证正确性和兼容性 限制 虚拟机安装,CPU 2*4 内 ...

  4. 红日安全vulnstack (一)

    网络拓扑图 靶机参考文章 CS/MSF派发shell 环境搭建 IP搭建教程 本机双网卡 65网段和83网段是自己本机电脑(虚拟机)中的网卡, 靶机外网的IP需要借助我们这两个网段之一出网 Kali ...

  5. 千万商家的智能决策引擎--AnalyticDB如何助力生意参谋双十一

    作者:算法&健兮,阿里巴巴数据技术及产品部技术专家 生意参谋介绍 生意参谋是阿里官方打造的全渠道.全链路.一站式数据平台,致力于为用户提供经营分析.市场洞察.客群洞察等多样化数据服务,帮助用户 ...

  6. Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路

    简介: 为了解决大数据.AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂.存算分离 I/O 速度慢.场景感知弱调度低效等痛点问题,南京大学PASALab.阿里巴巴.Alluxio 在 2 ...

  7. Hologres揭秘:深度解析高效率分布式查询引擎

    简介: 从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列 ...

  8. 浅谈 Linux 高负载的系统化分析

    ​简介: 浅谈 Linux 高负载的系统化分析,阿里云系统组工程师杨勇通过对线上各种问题的系统化分析. 讲解 Linux Load 高如何排查的话题属于老生常谈了,但多数文章只是聚焦了几个点,缺少整体 ...

  9. [FAQ] 没有docker用户组,怎么让普通用户有权限操作docker

      如果没有docker用户组,可以通过以下步骤让普通用户有权限操作docker: 创建一个名为docker的用户组: sudo groupadd docker 将当前用户添加到docker用户组中: ...

  10. [MongoDB] Mongo 表字段添加索引, 查看索引, 删除索引

    查看索引: db.getCollection('xx').getIndexes(); 创建索引: # 1 代表升序,-1代表降序,name 指定索引名 db.getCollection('xx').c ...