【大数据之数据仓库】HAWQ versus GreenPlum

谈到GreenPlum，肯定会有同事说HAWQ！是的，在本系列第一篇选型流水记里，也有提到。因为对HAWQ接触有限，没有深入具体了解，所以很多信息都是来自于博文，人云亦云，我把看过的资料简要整理，希望对感兴趣的同事有一些帮助^_^

HAWQ的身世：https://www.pivotalguru.com/?p=1176，目前已经开源：http://hawq.incubator.apache.org/；
HAWQ和GreenPlum的比较：https://www.pivotalguru.com/?p=719，可以简要归纳为：GreenPlum是存储和计算合体的，标准的RDBMS系统；而HAWQ是存储与计算分离的，它的存储放在HDFS上，它的计算你可以理解成是被阉割了存储模块的“GreenPlum”，当然，它对Hadoop生态圈的结合度更高，支持对接各种组件：Hive/Hbase/avro等等。这里补充一点：存储和计算分离有啥好处？或者解决了什么问题。大数据领域，影响数据分析的瓶颈就两块：一块是数据扫描（磁盘IO），另一块是数据计算（CPU+MEM）。想象一下，如果我们发现读数据非常耗时（磁盘IO瓶颈），那么可以增加磁盘通过增加IO带宽来解决问题，而如果发现计算耗时特别长，比如CPU一直100%或者MEM已经耗尽，那么可以增加计算资源（比如添加无穷无尽的云主机）来解决。反过来，如果存储和计算合体，那么意味着资源的有效利用率会很低，所以分离是趋势。
我们怎么来定位HAWQ和GreenPlum或者怎么来选择使用呢？答案是手拉手一起使用：https://www.pivotalguru.com/?p=642请注意博文底下的一幅图；另外，在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的组合架构，来构建基础数据仓库，满足不同业务需求；
HAWQ当前发布版本暂不支持数据更新和删除操作，不过3.0.0.0版本将会支持：https://issues.apache.org/jira/browse/HAWQ-304
HAWQ性能指标怎么样？这里有篇Pivotal自测的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions，号称压倒impala，不过针对本篇博文的题目，我支持GreenPlum！
有公司基于HAWQ提供商业服务：http://www.hashdata.cn；也有公司基于GreenPlum提供商业服务：http://vitessedata.com/deepgreen-db

大家如果还有其他想要了解的，记得留言哦，回头抽空补上:)

看这里：

《
【大数据之数据仓库】选型流水记》

本文来自网易云社区，经作者何李夫授权发布。

原文地址：【大数据之数据仓库】HAWQ versus GreenPlum

更多网易研发、产品、运营经验分享请访问网易云社区。

【大数据之数据仓库】HAWQ versus GreenPlum的更多相关文章

【大数据之数据仓库】GreenPlum优化器对比测试
在< [大数据之数据仓库]选型流水记>一文中有提及,当时没有测试GreenPlum的quicklz压缩算法和ORCA查询优化器,考虑到quicklz压缩算法因为版权问题不会开源(详情请参阅 ...
【大数据之数据仓库】安装部署GreenPlum集群
本篇将向大家介绍如何快捷的安装部署GreenPlum测试集群,大家可以跟着我一块儿实践一把^_^ 1.主机资源申请2台网易云主机,操作系统必须是RedHat或者CentOS,配置尽量高一点.如果是s ...
【大数据之数据仓库】GreenPlum PK DeepGreen（TPCH）
1.背景一张UML类图可以简单的说明GreenPlum和DeepGreen之间的关系: GreenPlum: 主页:http://greenplum.org/ 源码:开源,https://githu ...
【大数据之数据仓库】kudu性能测试报告分析
本文由网易云发布. 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种逆天黑科技的呀:列独立存储.bloom filte ...
论各类BI工具的“大数据”特性！
市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面 ...
DW(一):大数据DW架构参考
DW一直以来是企业信息与决策支持系统的核心组件,随着各类日志.社交.传感等非结构化数据的加入,企业内部数据按指数级增长,传统DW已经达到一个关键临界点——需要大量的资源投入到硬件.优化.支持和维护中, ...
关于BI商业智能的“8大问”｜一文读懂大数据BI
这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每 ...
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
大数据体系概览Spark.Spark核心原理.架构原理.Spark特点大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...
[DB] 大数据概述
什么是大数据电商推荐系统大量订单如何存储(十年) 大量的订单如何计算(不关心算法) 天气预报大量的天气数据如何存储大量天气数据如何计算核心问题数据的存储:分布式文件系统(HDFS) 数据的 ...

随机推荐

python开发面向对象基础：组合&继承
一,组合组合指的是,在一个类中以另外一个类的对象作为数据属性,称为类的组合人类装备了武器类就是组合 1.圆环,将圆类实例后传给圆环类 #!/usr/bin/env python #_*_ ...
Lambda表达式中使用正则表达式
某语句如果不用正则表达式: string[] names = { "Tom", "Dick", "Harry", "Mary&qu ...
解决maven构建工程错误：Failure to transfer org.apache.maven.plugins:maven-jar-plugin:pom:2.4 from错误
问题描述: mvn archetype:generate -DgroupId=com.mycompany.app -DartifactId=myapp -DarchetypeArtifactId=ma ...
javascript第三节
面向对象的程序设计 1.属性类型 ECMAScript中有两种属性:数据属性和访问器属性数据属性: configurable设置为false,表示不能从对象中删除属性. 访问器属性: 支持定义多个属 ...
In function 'int av_clipl_int32_c(int64_t)': error: 'UINT64_C' was not declared in this scope
cygwin下使用ndk编译jni时遇到的错误: /ffmpeg/include/libavutil/common.h: In function 'int av_clipl_int32_c(int64 ...
《转》我的ARM学习经历
1.基础阶段话说06年第一份工作从事的是PLC开发,用protel画原理图和PCB,写AVR单片机程序,焊焊板子,还去过华强北买器件,比较杂,但是接触面比较广,为进一步学ARM打下了基础. ...
Spring使用标签注解来简化xml书写
一.步骤在配置文件中,引入context命名空间 <beans xmlns="http://www.springframework.org/schema/beans" xm ...
spring中aop原理
辽宁工程技术大学校园网(深澜) 叠加小水管提速,多wan叠加负载均衡
教程没啥大用了.可以直接修改路由器为DHCP自动获取ip,然后直接登录校园网. 昨天晚上尝试了下用潘多拉固件多wan叠加网速,负载均衡,算是提高了速度. 转载请注明出处.教程供参考.本教程不是破解教程 ...
【bzoj2818】Gcd
2818: Gcd Time Limit: 10 Sec Memory Limit: 256 MBSubmit: 4344 Solved: 1912[Submit][Status][Discuss ...

【大数据之数据仓库】HAWQ versus GreenPlum

【大数据之数据仓库】HAWQ versus GreenPlum的更多相关文章

随机推荐

热门专题