数仓专家面对面 | 为什么我选择GaussDB(DWS)
摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?
导语
数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。
你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?
今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。
曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab 做博士后研究。他发表了多篇数据库领域的CCF A类论文,曾获得SIGMOD 2012最佳论文奖、SIGMOD 2014最佳演示奖以及SIGMOD 2010最佳演示奖提名,并常年担任SIGMOD、VLDB、ICDE等数据库领域会议的PC Member等。
正文
主持人:您觉得数仓是如何应运而生的?
曾博:数据库的诞生,实际上是伴随着计算机的诞生,人类数据信息管理和处理方式的一种升级。但是数据库诞生之初,还是没有数仓的,数仓其实是在80年代以后,人们对于数据管理和处理的诉求进一步提升,数据量增加,数据分析的复杂度和维度变得更大了以后,才开始产生面向分析的负载,然后才有数据仓库的诞生。在我看来,数据仓库的诞生,它就代表人们不再满足于对数据做简单的存储和操作管理,而是尝试从数据中去挖掘价值,通过分析数据来支撑商业决策。当然数仓也在不断发展,从描述型的数仓,演进为探索型的数仓,再到运营型的数仓,发展到今天我认为已经进入到了智慧型的数仓时代。
主持人:可以请您谈一下对国内数仓产业的见解吗?比如国内需要怎么样的数仓产品,有哪些场景迫切需要数仓的发展与演进,这些场景对数仓提出了哪些能力要求?
曾博:我觉得数仓产品的发展和演进方向可以用一个词来总结,就是“融合”,这些包括传统数仓技术与云计算的融合,流与批的融合,湖和仓的融合,数据和AI的融合,TP与AP的融合等等:
一是传统数仓技术与云计算的融合,也就是云原生serverless化,目前数据仓库的架构正向云原生演进,其典型技术特征是存算分离。这种新架构可以给用户带来极致的弹性,同时降低成本和提高资源利用率。二是流与批的融合,我们也称实时分析,像实时风控、实时营销、实时授信等场景越来越需要对当前最新产生数据进行即时的分析。三是湖和仓的融合,也就是湖仓一体,将数据湖和数据仓库有机结合,充分融合数据仓库的高性能与数据湖的低成本,实现冷热数据分级、价值密度分级,同时承载结构化、半结构化及非结构化的海量数据的多样化处理。四是数智融合,也就是融合数据平台和AI平台,实现能力互补,将数据仓库数据管理能力与ML流程生命周期管理结合。五是TP与AP的融合,运用HTAP,构建一套系统,既支持TP又支持AP能力,同时降低成本、减少系统运维和ETL开销。
主持人:对于您个人而言,为什么选择了GaussDB(DWS),GaussDB(DWS)产品什么方面吸引了您?
曾博:首先从个人背景来讲,我其实一直都是深耕在数据库和分布式系统领域,所以我个人对于数据处理技术有着浓厚的兴趣。
其次,GaussDB(DWS)的发展,从华为的2012实验室孵化之初,到如今已经有10多个年头了。这中间GaussDB(DWS)的团队不断在技术上追求卓越,精益求精,到目前为止服务超过1700家客户,已经在工业界成长为业界第一梯队的数据仓库产品。不仅如此,GaussDB(DWS)在学术圈也有一定的影响力,经常在国际数据库研究领域发表论文以及参加研究交流活动。所以我觉得GaussDB(DWS)不管是作为一个工业产品,还是作为一个数据库技术研发平台,都是非常好的载体,这也是GaussDB(DWS)吸引我,让我选择在这里工作的原因。
主持人:您觉得GaussDB(DWS)未来的能力增长方向在哪些方面,GaussDB(DWS)在未来能带来哪些更多的可能性?
曾博:就像我之前提到的,DWS未来会在以存算分离为架构特点的云原生Serverless化、实时分析、HTAP混合负载,还有跟周边生态系统的融合,包括湖仓一体、数智融合、智能化等等方向持续投入研发理论,不断推动这些方面的技术能力发展。另外我想着重强调一点,就是我们今年3月底会发布新一代全场景云数据仓库——GaussDB(DWS)3.0,在保持GaussDB(DWS)传统的优秀的性能和可靠性,以及优异的实时分析,HTAP混合负载的能力之外,就在这些方向上引入了更多业界领先的能力:
比如说在云原生Serverless化方面,GaussDB(DWS)3.0引入了极致的弹性能力,可以为用户提供分钟级的逻辑集群内部弹性,也可以支持用户分钟级地去按需创建和销毁逻辑集群。并且用户可以按照业务诉求,去灵活使用多个逻辑集群支持不同的业务负载,保证各种业务负载之间严格的资源隔离,同时还可以根据业务负载的动态需求变化来弹性伸缩;并随着业务负载的增长,线性地提升它的承载能力。
同时GaussDB(DWS)3.0也大大增强了湖仓一体和数智融合方面的能力,支持与华为云大数据的产品站无缝融合,这样用户就可以在湖和仓的数据上实现无缝的混合复杂查询,使得用户对湖上数据的分析仍然能够体验数据仓库的极致查询性能和非常强大的负载管理能力。同时在数智融合方面,我们提供了非常方便的手段,来打通用户的数据生产线和AI生产线,使得用户可以利用数仓强大的计算能力,为AI生产线提供高质量的数据和数据加工的能力,同时也可以把AI训练和推理的能力无缝地集成到数仓数据分析的过程中来,提供更多的可能性。
云数据仓库 GaussDB(DWS)一块钱试用名额,快来加入我们吧。
试用链接:https://account.huaweicloud.com/pkgbuy/#/home?prId=P2301030739348161PUN0WH1KGC25E
数仓专家面对面 | 为什么我选择GaussDB(DWS)的更多相关文章
- 【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控
摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案. 本文分享自华为云社区<GaussDB(DWS)运维 -- 单SQL磁盘空间管控>,作者: 譡里个檔. [问题描述] ...
- 【CDH数仓】Day01:概念、环境搭建、CDH数仓搭建、用户行为数仓搭建
一.数仓之Cloudera Manager 1.CM简介 拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具 快速安装,快速运维,提高集群的效率 CM架构 2.阿里云服务器准备 注册账号 购 ...
- 使用Oozie中workflow的定时任务重跑hive数仓表的历史分期调度
在数仓和BI系统的开发和使用过程中会经常出现需要重跑数仓中某些或一段时间内的分区数据,原因可能是:1.数据统计和计算逻辑/口径调整,2.发现之前的埋点数据收集出现错误或者埋点出现错误,3.业务数据库出 ...
- HAWQ取代传统数仓实践(十九)——OLAP
一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...
- 基于MaxCompute的数仓数据质量管理
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...
- 数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍<数据仓库工具箱:维度建模权威指南>,本篇文章参考此书而作.文章首发公众号:五分钟学大数据,公众号中发送"维度建模"即可获取此书籍第三版电子书 先来介绍 ...
- 传统 BI 如何转大数据数仓
前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈--现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边 ...
- Greenplum数仓监控解决方案(开源版本)
Greenplum监控解决方案 基于Prometheus+Grafana+greenplum_exporter+node_exporter实现 关联图 一.基本概念 1.Prometheus Pr ...
- 数仓day01
1. 该项目适用哪些行业? 主营业务在线上进行的一些公司,比如外卖公司,各类app(比如:下厨房,头条,安居客,斗鱼,每日优鲜,淘宝网等等) 这类公司通常要针对用户的线上访问行为.消费行为.业务操作行 ...
- 看SparkSql如何支撑企业数仓
企业级数仓架构设计与选型的时候需要从开发的便利性.生态.解耦程度.性能. 安全这几个纬度思考.本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成 ...
随机推荐
- 深入理解 python 虚拟机:GIL 源码分析——天使还是魔鬼?
深入理解 python 虚拟机:GIL 源码分析--天使还是魔鬼? 在目前的 CPython 当中一直有一个臭名昭著的问题就是 GIL (Global Interpreter Lock ),就是全局解 ...
- ant design TreeSelect支持搜索,切换value和title属性
测试人员测试我form里面一个select的时候,发现只能搜索英文和数字,不能搜中文 后来找到原因,treeNodeFilterProp字段默认是velue,我value里面是id,当然搜不到中文啦 ...
- Python:发送邮件或发带附件的邮件
在进行发邮件之前,首先了解两个模块:smtplib和email. smtplib模块主要是负责发送邮件的,是一个发邮件的动作,比如连接邮箱服务,登录邮箱,发送邮件等. email模块主要是负责构造邮件 ...
- NanoPI常用命令
更新 sudo apt-get update 安装 CURL sudo apt install curl
- 使用 redis 实现分布式接口限流注解 RedisLimit
前言 很多时候,由于种种不可描述的原因,我们需要针对单个接口实现接口限流,防止访问次数过于频繁.这里就用 redis+aop 实现一个限流接口注解 @RedisLimit 代码 点击查看RedisLi ...
- 树莓派的简单上手-网络配置-ssh-frp
作为一个伪pi粉, 隔三差五的玩一下树莓派,有时总是忘记这些配置方法,这里记录一下. 可以看考如下的文章: https://blog.csdn.net/cupidove/article/details ...
- KMeans算法全面解析与应用案例
本文深入探讨了KMeans聚类算法的核心原理.实际应用.优缺点以及在文本聚类中的特殊用途,为您在聚类分析和自然语言处理方面提供有价值的见解和指导. 关注TechLead,分享AI全维度知识.作者拥有1 ...
- ZYNQ国产化替代-FMQL100TAI 核心板
概述 FMQL100TAI 核心板基于复旦微的PSOC 架构处理器,型号为FMQL100TAI9000, 板卡 100%采用国产芯片设计,板卡质量等级分为国产 I 级和国产 J 级.具备强大的运算能 ...
- 删除当前文件夹不是.vue文件,电脑命令符
::-----------------------------------------@echo offsetlocal EnableDelayedExpansionset _thisFilePath ...
- SQL模糊查询语法思考
模糊查询 sql语句: SELECT 字段 FROM 表 WHERE 某字段 Like 条件 % :表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示 ...