阿里云数据库产品HybridDB简介——OLAP数据库,支持行列混合存储,基于数据库Greenplum的开源版本,并且吸收PostgreSQL精髓
为什么会有HybridDB的诞生?它经历了怎样的研发历程?它的应用场景和情况是怎样的?带着这些问题,InfoQ对阿里云的数据库专家兼Postgres中国社区/中国用户会主席萧少聪先生进行了采访,以下文字整理自采访文稿。
业界早期使用数据时,尤其是OLTP场景下,通常选择非分布式的关系型数据库,如MySQL、SQLServer、Oracle、PostgreSQL即可满足大部份的需求。
OLAP中主流数据库遭遇瓶颈
从技术角度而言,OLAP场景,不仅涉及的数据量大而且要求分析的结果实时返回,对应的SQL查询十分复杂。如何做到技术性能和业务功能权衡,对于数据库而言是一个重大考验。
已有的两个主流开源数据库,MySQL和PostgreSQL都是针对OLTP环境的,在OLAP在线分析需求下它们的性能明显不足。特别是MySQL在大规模分析操作时多表Join的性能是当前互联网用户的一大痛点。
在OLAP发展的早期,其操作并没有专门的数据库支撑,直接就与OLTP业务放在同一个数据库中完成。但随着业务量的增加,OLAP每次要分析的数据量越来越大,这样的分析操作执行时就会导致数据库的业务交易下降。因此业界开始将OLTP、OLAP拆分成两套不同的数据库进行处理,OLTP数据库中的数据通过ETL软件持续或定期抽取到OLAP数据库,让业务交易与报表分析进行分离。
而新的问题很快又到来了,联互网爆发后数据量也激增,OLTP的业务库可以保存比较少的数据量如3个月到半年,但OLAP的数据量将可能要保存几年甚至更多。单台服务服务的性能上限已经无法满足OLAP分析数据持续增加所带来的压力,因此催生出如阿里HybridDB这样的大规模并行处理(Massive Parallel Processing,MPP)分布式OLAP数据库。
新的分布式OLAP数据库
在提供HybridDB方案之前,我们会给用户提供如分库分表等处理方案,但这样的方案对于SQL查询内容不确定的OLAP业务并不友好。当用户需要进行多个数据表的组合操作时,由于数据需要跨服务器进行大规模的聚合,性能十分低下。这个问题在HybridDB中也同样会出现,所幸的是,Greenplum Database开源项目中借助平行的数据扩展技术及interconnect的专用协议,通过自定义的网络协议有效地解决了网络瓶颈的问题。这也是我们选择基于Greenplum Database开源项目的原因之一。
简单来说,MPP是一种平衡的性能扩张模型。以HybridDB的模型为列,每个节点可存放的数据量及计算能力为1Core / 8GB Mem / 80GB SSD(即将开放500GB HDD版本),如果用户80GB以内的数据在这样的计算单元中,可以在毫秒内查询出结果,那将数据计算能力及容量平衡扩展到上百TB甚至PB时,用户查询“等比”数据量时依然可以达到毫秒级别。
MPP分布式OLAP数据库系统架构已经发展了有10多年之久,十分成熟,当前使用这类系统的企业都是中大型公司。OLAP是一个很大的市场,有别于如同EMR(Hadoop)的大数据分析市场,它要求海量数据的SQL查询在几分钟、几秒,甚至毫秒级返回结果,因此对于服务器、网络及数据库软件本身的架构都提出了很高的要求。
技术攻坚之路
2015年10月Greenplum Database由Pivotal开源后,阿里云PostgreSQL内核团队便开始进行深度的调研,于2016年开始进行产品的研发工作,到今年7月份我们对用户开放了公测邀请并准备正式商业化的工作。
揭秘HybridDB方案
HybridDB基于开源Greenplum Database(内核实际上就是PostgreSQL)项目的MPP分布式数据仓库,与PostgreSQL不同,HybridDB可以实现横向扩展,提供用户需要的百GB到百TB的高性能分析能力。

HybridDB最大的三个特色:
- 基于成熟的GPDB及PostgreSQL生态,软开发合作伙伴进行一次软件开发,即可在云上云下同样使用,免去迁移的烦恼,更容易实现混合云中的数据分析支持。
支持多种混合数据类型(多达23种)的SQL统一查询,包括:
传统数据类型:字符、数字、浮点、日期等;
非结构化数据:JSON、XML;
特殊功能数据类型:GIS地理信息数据、IPv4/v6网络数据、HyperLogLog预估分析数据。
- 支持混合的数据存储,包括:行存、列存、SSD/HDD本地存储、OSS云存储,未来更将支持“存储计算分离”,用户可以更为灵活在进行资源的购买及分配。
那么,HybridDB在OLAP读取中都做了哪些优化?
优化方面从引擎底层我们针对阿里云的硬件及网络特点,进行的源码级别的深度优化,特别是在网络调度上进行了针对性的处理,提高跨网络数据节点的吞吐能力。同时在用户业务层中对特殊数据类型进行扩展,如果物联网中的JSON数据类型是Greenplum Database所不支持的,HybridDB通过直接支持这一数据类型,避免用户自行进行非结果化的解析,同时提供基于函数的JSON属性级索引,提高数据库处理JSON的检索性能。
数据存储
1、本地存储
HybridDB的本地存储分为行储存和列存储两种方式。行存储和列存储各有长处。行存适合于近线数据的分析,特别是要求查询结果返回表中某几跳符合条件记录的所有字段的情况。列存适合用于数据的统计分析。
那么两者的适用情况是怎样的呢?举例说明:在行存的情况下,如果一个用于存放用户的表中有20个字段,但我们只要统计用户年龄的平均值,这时数据库要对用户表进行全表扫描,遍历所有行的所有数据;但如果使用列存,数据库只要定位到这一列,然后只扫描这一列的数据就可以得到所有的结果,性能上相比列存理论上就会直接快20倍,加上HybridDB将数据分布式存储到多个计算节点,性能将再次提高几倍,达到100倍性能提升是十分常见。
HybridDB是混合两者搭配使用的。用户可以配搭进行使用,定义不同的表使用不同的存储方式,让用户适应不同的业务场景,并进行数据生态周期的管理。如6个月内的数据可能要经常获取全行数据,因此使用行存储,6个月后的数据通过列存储进行保存提高分析汇总操作的查询性能。
2、外部存储
高性能的数据分析是在本地存储完成的。OSS作为外部存储,HybridDB可以将OSS中的CSV格式化文本作为外部表进行数据查询,同时还可以对这些外部表进行写入操作。写入到OSS的数据可以提供给RDS for PostgreSQL或EMR等云数据库服务进行读取及处理,因此也同时实现了数据的无缝打通。
同时我们也将支持“存储计算分析”的模型,在这样模型上我们平时甚至可以只通过OSS进行数据的存储,当需要进行计算时再开启足够的计算节点进行数据分析处理,计算处理结束后关闭计算节点资源以节省使用成本。

。。。
转自:http://www.infoq.com/cn/news/2016/12/MySQL-PostgreSQL-Greenplum
阿里云数据库产品HybridDB简介——OLAP数据库,支持行列混合存储,基于数据库Greenplum的开源版本,并且吸收PostgreSQL精髓的更多相关文章
- 阿里云RDS备份的tar格式包恢复到本地自建数据库
说明 阿里云RDS-mysql数据库是通过percona-Xtrabackup进行备份的,所以恢复时也需要安装该软件. 另外注意的是:你自己下载的MySQL版本要和阿里云上的MySQL版本一致,不然会 ...
- PolarDB · 新品介绍 · 深入了解阿里云新一代产品 PolarDB
背景意义 云计算为如今的互联网时代提供了更多的计算能力,乃至创造能力,关系型数据库作为所有应用不可或缺的重要部件,开箱即用,高性价加比特性的云数据库深受开发者的喜爱.作为一线的开发和运维人员,在阿里云 ...
- 一张图看懂阿里云网络产品【十五】IPv6 解决方案
摘要: 作为国内首家全面支持IPv6的云厂商,阿里云12月再次推出全栈IPv6解决方案,核心产品已全面支持,协助客户小时/天级即可完成IPv6 访问.方案成功历经优酷.淘宝.天猫.双十一考验.SLB ...
- 在阿里云购买SSL证书,让网站支持HTTPS
SSL简介 引自:https://baike.baidu.com/item/ssl/320778?fr=aladdin SSL SSL(Secure Sockets Layer 安全套接层),及其继任 ...
- 正式开放 | 阿里云 10 亿级镜像服务正式支持 Helm Charts,云原生交付再加速!
作者 | 阿里巴巴高级开发工程师 谢于宁(予栖) 2018 年 6 月,Helm 正式加入了 CNCF 孵化项目: 2018 年 8 月,据 CNCF 的调研表明,有百分之六十八的开发者选择了 Hel ...
- 阿里云函数计算发布新功能,支持容器镜像,加速应用 Serverless 进程
我们先通过一段视频来看看函数计算和容器相结合后,在视频转码场景下的优秀表现.点击观看视频 >> FaaS 的门槛 Serverless 形态的云服务帮助开发者承担了大量复杂的扩缩容.运维. ...
- 品尝阿里云容器服务:用nginx镜像创建容器,体验基于域名的路由机制
在前一篇博文中我们了解了阿里云容器服务的路由机制: 请求 -> 负载均衡80端口 -> 容器主机9080端口 -> acsrouting路由容器80端口 --基于域名--> W ...
- 阿里云服务器(windows server 2012 r2 64位)安装MYSQL8.0.18数据库 (小白必备)
今儿中午询问了朋友关于服务器的一些事情后,就开始安装了,从中午大概一点,整到晚上九点,终于装成功了,感觉安装过程能遇到的问题全遇到了,给后面的朋友一些参考意见把. 第一次碰云服务器,措辞不当或不正确之 ...
- 阿里云SLB产品HTTP、HTTPS、UDP协议使用
1.http协议测试 第一步:添加http监听服务,前端端口为8080,后端端口为80,健康检查中检查端口为后端端口80: 第二步:在绑定的服务器上安装服务,步骤如下 centos系统中启动http协 ...
随机推荐
- Android在其他线程中更新UI
public class TransferTools { private static final int MSG_START = 1001; private static final int MSG ...
- cacti监控linux和windows磁盘IO
cacti监控linux和windows磁盘IO 标签:cacti linux磁盘IO windows磁盘IO 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则 ...
- iOS -- SKTexture类
SKTexture类 继承自 NSObject 符合 NSCodingNSCopyingNSObject(NSObject) 框架 /System/Library/Frameworks/Sprite ...
- Ubuntu下添加开机启动项的2种方法
1.方法一,编辑rc.loacl脚本 Ubuntu开机之后会执行/etc/rc.local文件中的脚本,所以我们可以直接在/etc/rc.local中添加启动脚本.当然要添加到语句:exit 0 前面 ...
- C++虚继承的概念(转)
http://blog.csdn.net/wangxingbao4227/article/details/6772579 C++中虚拟继承的概念 为了解决从不同途径继承来的同名的数据成员在内存中有不同 ...
- C语言-回溯例2
组合问题 组合:从n个不同元素中取r个不重复的元素组成一个子集,而不考虑其元素的顺序,称为从n个中取r个的无重组合,例如OR = {1,2,3,4}, n = 4, r = 3则无重组合为: {1,2 ...
- java 是 传值还是传址 Pass-by-value or Pass-by-reference
原文在此,写的非常好,解答了我的疑问 http://www.javadude.com/articles/passbyvalue.htm 首先放上一段代码,我是在找寻这段代码的内部原理的时候,在stac ...
- 【程序猿联盟】官网上线啦!coderunity.com
wx_fmt=jpeg" alt="" style="max-width:100%; height:auto!important"> 内容简单介 ...
- Android Studio 那些事|Activity文件前标识图标显示为 j 而是 c
问题:Activity文件前标识图标显示为 j 而是 c 的图标,或是没有显示,并且自己主动提示不提示 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/fo ...
- LeetCode(15)题解--3Sum
https://leetcode.com/problems/3sum/ 题目: Given an array S of n integers, are there elements a, b, c i ...