数仓专家面对面 | 为什么我选择GaussDB(DWS)
摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?
导语
数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。
你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?
今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。
曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab 做博士后研究。他发表了多篇数据库领域的CCF A类论文,曾获得SIGMOD 2012最佳论文奖、SIGMOD 2014最佳演示奖以及SIGMOD 2010最佳演示奖提名,并常年担任SIGMOD、VLDB、ICDE等数据库领域会议的PC Member等。

正文
主持人:您觉得数仓是如何应运而生的?
曾博:数据库的诞生,实际上是伴随着计算机的诞生,人类数据信息管理和处理方式的一种升级。但是数据库诞生之初,还是没有数仓的,数仓其实是在80年代以后,人们对于数据管理和处理的诉求进一步提升,数据量增加,数据分析的复杂度和维度变得更大了以后,才开始产生面向分析的负载,然后才有数据仓库的诞生。在我看来,数据仓库的诞生,它就代表人们不再满足于对数据做简单的存储和操作管理,而是尝试从数据中去挖掘价值,通过分析数据来支撑商业决策。当然数仓也在不断发展,从描述型的数仓,演进为探索型的数仓,再到运营型的数仓,发展到今天我认为已经进入到了智慧型的数仓时代。

主持人:可以请您谈一下对国内数仓产业的见解吗?比如国内需要怎么样的数仓产品,有哪些场景迫切需要数仓的发展与演进,这些场景对数仓提出了哪些能力要求?
曾博:我觉得数仓产品的发展和演进方向可以用一个词来总结,就是“融合”,这些包括传统数仓技术与云计算的融合,流与批的融合,湖和仓的融合,数据和AI的融合,TP与AP的融合等等:
一是传统数仓技术与云计算的融合,也就是云原生serverless化,目前数据仓库的架构正向云原生演进,其典型技术特征是存算分离。这种新架构可以给用户带来极致的弹性,同时降低成本和提高资源利用率。二是流与批的融合,我们也称实时分析,像实时风控、实时营销、实时授信等场景越来越需要对当前最新产生数据进行即时的分析。三是湖和仓的融合,也就是湖仓一体,将数据湖和数据仓库有机结合,充分融合数据仓库的高性能与数据湖的低成本,实现冷热数据分级、价值密度分级,同时承载结构化、半结构化及非结构化的海量数据的多样化处理。四是数智融合,也就是融合数据平台和AI平台,实现能力互补,将数据仓库数据管理能力与ML流程生命周期管理结合。五是TP与AP的融合,运用HTAP,构建一套系统,既支持TP又支持AP能力,同时降低成本、减少系统运维和ETL开销。

主持人:对于您个人而言,为什么选择了GaussDB(DWS),GaussDB(DWS)产品什么方面吸引了您?
曾博:首先从个人背景来讲,我其实一直都是深耕在数据库和分布式系统领域,所以我个人对于数据处理技术有着浓厚的兴趣。
其次,GaussDB(DWS)的发展,从华为的2012实验室孵化之初,到如今已经有10多个年头了。这中间GaussDB(DWS)的团队不断在技术上追求卓越,精益求精,到目前为止服务超过1700家客户,已经在工业界成长为业界第一梯队的数据仓库产品。不仅如此,GaussDB(DWS)在学术圈也有一定的影响力,经常在国际数据库研究领域发表论文以及参加研究交流活动。所以我觉得GaussDB(DWS)不管是作为一个工业产品,还是作为一个数据库技术研发平台,都是非常好的载体,这也是GaussDB(DWS)吸引我,让我选择在这里工作的原因。

主持人:您觉得GaussDB(DWS)未来的能力增长方向在哪些方面,GaussDB(DWS)在未来能带来哪些更多的可能性?
曾博:就像我之前提到的,DWS未来会在以存算分离为架构特点的云原生Serverless化、实时分析、HTAP混合负载,还有跟周边生态系统的融合,包括湖仓一体、数智融合、智能化等等方向持续投入研发理论,不断推动这些方面的技术能力发展。另外我想着重强调一点,就是我们今年3月底会发布新一代全场景云数据仓库——GaussDB(DWS)3.0,在保持GaussDB(DWS)传统的优秀的性能和可靠性,以及优异的实时分析,HTAP混合负载的能力之外,就在这些方向上引入了更多业界领先的能力:
比如说在云原生Serverless化方面,GaussDB(DWS)3.0引入了极致的弹性能力,可以为用户提供分钟级的逻辑集群内部弹性,也可以支持用户分钟级地去按需创建和销毁逻辑集群。并且用户可以按照业务诉求,去灵活使用多个逻辑集群支持不同的业务负载,保证各种业务负载之间严格的资源隔离,同时还可以根据业务负载的动态需求变化来弹性伸缩;并随着业务负载的增长,线性地提升它的承载能力。
同时GaussDB(DWS)3.0也大大增强了湖仓一体和数智融合方面的能力,支持与华为云大数据的产品站无缝融合,这样用户就可以在湖和仓的数据上实现无缝的混合复杂查询,使得用户对湖上数据的分析仍然能够体验数据仓库的极致查询性能和非常强大的负载管理能力。同时在数智融合方面,我们提供了非常方便的手段,来打通用户的数据生产线和AI生产线,使得用户可以利用数仓强大的计算能力,为AI生产线提供高质量的数据和数据加工的能力,同时也可以把AI训练和推理的能力无缝地集成到数仓数据分析的过程中来,提供更多的可能性。

云数据仓库 GaussDB(DWS)一块钱试用名额,快来加入我们吧。
试用链接:https://account.huaweicloud.com/pkgbuy/#/home?prId=P2301030739348161PUN0WH1KGC25E
数仓专家面对面 | 为什么我选择GaussDB(DWS)的更多相关文章
- 【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控
摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案. 本文分享自华为云社区<GaussDB(DWS)运维 -- 单SQL磁盘空间管控>,作者: 譡里个檔. [问题描述] ...
- 【CDH数仓】Day01:概念、环境搭建、CDH数仓搭建、用户行为数仓搭建
一.数仓之Cloudera Manager 1.CM简介 拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具 快速安装,快速运维,提高集群的效率 CM架构 2.阿里云服务器准备 注册账号 购 ...
- 使用Oozie中workflow的定时任务重跑hive数仓表的历史分期调度
在数仓和BI系统的开发和使用过程中会经常出现需要重跑数仓中某些或一段时间内的分区数据,原因可能是:1.数据统计和计算逻辑/口径调整,2.发现之前的埋点数据收集出现错误或者埋点出现错误,3.业务数据库出 ...
- HAWQ取代传统数仓实践(十九)——OLAP
一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...
- 基于MaxCompute的数仓数据质量管理
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...
- 数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍<数据仓库工具箱:维度建模权威指南>,本篇文章参考此书而作.文章首发公众号:五分钟学大数据,公众号中发送"维度建模"即可获取此书籍第三版电子书 先来介绍 ...
- 传统 BI 如何转大数据数仓
前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈--现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边 ...
- Greenplum数仓监控解决方案(开源版本)
Greenplum监控解决方案 基于Prometheus+Grafana+greenplum_exporter+node_exporter实现 关联图 一.基本概念 1.Prometheus Pr ...
- 数仓day01
1. 该项目适用哪些行业? 主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等) 这类公司通常要针对用户的线上访问行为.消费行为.业务操作行 ...
- 看SparkSql如何支撑企业数仓
企业级数仓架构设计与选型的时候需要从开发的便利性.生态.解耦程度.性能. 安全这几个纬度思考.本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成 ...
随机推荐
- 记一次MySQL5初始化被kill的问题排查
写在前面 由于测试环境JED申请比较繁琐,所以Eone提供了单机版Mysql供用户使用,近期Eone搭建Mysql5的时候发现莫名被kill了,容器规格是4C8G,磁盘30G 这不科学,之前都是可以的 ...
- Opencv系列之一:简介与基本使用
1 Opencv简介 Opencv是计算机视觉中经典的专用库,其支持多语言,跨平台,功能强大.Opencv-Python为Opencv提供了Python接口,使得使用者在Python中能够调用C/C+ ...
- Oracle 11g数据库详解(2017-01-23更新)
Oracle 11g数据库详解 整理者:赤勇玄心行天道 QQ:280604597 Email:280604597@qq.com 大家有什么不明白的地方,或者想要详细了解的地方可以联系我,我会认真回复的 ...
- 使用 mt19937 生成区间随机数
#include <cstdio> #include <random> #include <ctime> using namespace std; int main ...
- Qt+FFmpeg播放mp4文件视频
关键词:Qt FFmpeg C++ MP4 视频 源码下载在系列原文地址. 先看效果. 这是一个很简单的mp4文件播放demo,为了简化,没有加入音频数据解析,即只有图像没有声音. 音视频源的播放可以 ...
- ics-06
打开题目界面有点科技感,然后找到报表中心的位置 url地方出现了一个奇怪的id,试了下sql注入但是没报错,判断应该不是sql注入,然后就坐牢了 看了wp得在id的地方进行爆破 爆破了1-2500可以 ...
- ST 表
ST 表 定义 ST 表是用于解决 可重复贡献问题 的数据结构,通俗来说,一般可以解决区间查询问题. 区间最值和 \(gcd\) 我们以最大值为例,然后可以再推广到最小值和区间 \(gcd\) 首先你 ...
- 《最新出炉》系列初窥篇-Python+Playwright自动化测试-34-处理https 安全问题或者非信任站点-下篇
1.简介 这一篇宏哥主要介绍playwright如何在IE.Chrome和Firefox三个浏览器上处理不信任证书的情况,我们知道,有些网站打开是弹窗,SSL证书不可信任,但是你可以点击高级选项,继续 ...
- GUI界面实现小学生口算题卡功能(一)| 简要了解GUI
上课没认真听,下课不好好写. 关于GUI,首先了解了一下什么是GUI: GUI(Graphical User Interface),图形用户界面.采用图形方式显示的计算机操作用户接口.与早期计算机使用 ...
- Go切片是值传递还是引用传递?
Go没有引用传递和引用类型!!! 很多人有个误区,认为涉及Go切片的参数是引用传递,或者经常听到Go切片是引用类型这种说法,今天我们就来说一下方面的问题. 什么是值传递? 将实参的值传递给形参,形参是 ...