Hive和并行数据仓库的比较

最近分析和比较了Hive和并行数据仓库的架构，本文记下一些体会。
Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点：

1. 数据以HDFS文件的形式存储，从而可以很方便的使用外部文件
2. 元数据存储独立于数据存储之外，从而解耦合元数据和数据，同样的数据，不同的用户可以有不同的元数据
3. 查询计划被分解为多个MapReduce Job，并按照依赖关系依次执行，复用了MapReduce的执行架构
4. 灵活的存储格式，通过ObjectInspector将对数据列的访问与数据的具体存储格式解耦合，同一行数据在同一个数据处理流中可以以不同的格式出现
5. 基于规则的查询优化器，依次使用规则转换逻辑计划

下面，我们就把Hive跟传统的并行数据仓库进行一下深入的比较：

1. 存储引擎。并行数据仓库需要先把数据装载到数据库中，按特定的格式存储成特定的页文件，然后才能查询；而Hive则不用装载数据，也不用格式转换，Hive内置了多种文件格式的支持，并且可以使用用户定制的格式实现(inputformat)，这样大大节省了数据导入的开销。传统数据仓库是把数据导入系统中，而Hive则是动态的将对数据处理的逻辑（代码）导入系统中。

2. 执行引擎。Hive架构于MapReduce Framework之上，执行计划的灵活性较差，优化器可做的选择很少，例如：Join算法只有Grace Hash Join一种选择，性能更加优秀且稳定的Hybrid Hash Join则无法实现; Map端的Group-by算法只有Hash Group-by一种选择, Reduce端的Group-by只有sort group-by一种选择(不然MapReduce提供的sort就浪费了); limit无法和sort融合起来，很多情况下，用堆排序来融合limit与sort会更加高效。
Join, Group-by, Limit在OLAP，日志分析等任务中非常常用的Operator，而Hive在这3个Operator的实现上都依赖于MapReduce Frameowork提供的partition和sort，好处是实现比较简单，缺点是效率往往不是最优的。然而，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。相反，并行数据仓库实现了各种算法，它的查询优化器可以更加灵活的选择这3个Operator的不同实现。

3. 查询优化器。大多数商用数据仓库使用基于代价的优化器，在生成查询计划时，利用元数据中的统计信息估算每个operator要处理的数据量，选取代价较低的执行计划。不过，这些商用数据仓库的都起步于基于规则的查询优化器，而Hive正处于这样一个类似的起步阶段。因而Hive查询优化器能做的优化并不多，仅限于10几条转换规则。

4. 索引和缓冲管理。对于查询来说，索引的作用至关重要，尽管Hive中的partition起到和索引类似的作用，但还比较初级，与并行数据仓库较为完善的索引(primary,secondary, clustered, unclustered)还有很大差距。当然，Hive也没有缓冲区管理机制，只能依赖于文件系统的缓冲机制；并行数据仓库往往禁用操作系统的缓冲机制，针对不同的查询的特点设计了多种缓冲机制，从而优化了性能。

5. 并行扩展性。MapReduce将MR job的中间结果保存到Map Task的本地硬盘，从而MR Job的容错性非常好，Hive自然的利用了这一点；Hive执行计划中，每一个MapReduce job又把处理结果写到HDFS，从而又利用了HDFS的容错性。这样，在一个Hive查询的执行中，如果某个节点出现故障了，只需要重新调度执行该节点的任务即可，不需要重新提交查询。因此，Hive有非常好的intra-query fault-tolerance，所以可扩展性非常强，例如一个查询可以在4000个节点上同时跑；缺点是大大减少了pipeline
parallelism的机会。并行数据仓库往往采用的是pipeline架构，上游的Operator每产生一条数据就会送去下游的Operator。这样的好处是最大化了pipeline parallelism并避免了中间结果的磁盘读写，但是，当一个查询运行于并行数据库上时，一旦一个节点出现故障，并行数据仓库就必须重新执行该查询。所以，当一个集群中的单点故障发生率较高时，并行数据仓库的性能就会下降了。假设每个节点故障发生率是0.01%，那么1000个节点的集群中，单点故障发生率则为10%；假设每个节点故障发生率是0.0001%，那么5000个节点的集群中，单点故障发生率为0.5%！

6. 内存拷贝开销。千万别小看这一点，内存拷贝会很大程度上拖累系统性能。我们可以注意到，Hive中所有的哈希，比较，数值运算操作，都需要操作在Writable Object上，而每次重置(reset)这些Writable Object，都需要将数据从byte array拷贝到这些对象的byte[]成员中。在更精巧的实现中，很多内存拷贝其实是可以避免的，并行数据仓库往往做了很多优化（甚至包含操作系统内核的优化，比如Teradata的PDE）去节省不必要的内存拷贝，从而又带来了性能提升。

在实际应用中，到底该选用Hive还是并行数据仓库，取决于这些：
1. 钱，Hive是开源的，并行数据仓库(db2, teradata, netezza, vertica)是非常昂贵的
2. 还是钱，Hive只需要普通机器集群，并且集群节点的操作系统和硬件都可以是异构的，单点故障发生率高也无所谓；并行数据仓库往往希望使用性能较高的服务器作为集群节点，从而单点故障发生率可以控制在一个非常低的范围。

3. 数据规模，如果是Google, Facebook, Baidu这种规模的应用，需要几千甚至上万节点的集群，目前的商业并行数据仓库产品就很难支撑了；如果是沃尔玛，eBay这些应用，并行数据仓库还是完全可以胜任的，并且性能会远优于Hive。

此文旨在抛砖引玉，欢迎大家进行更多的比较:-)

=============================================================

另补充我的一些观点：

Hive本意是在Hadoop的MapReduce编程模型上进行包装，使其支持声明式的SQL查询，其各种opr都是使用MapReduce模型模拟实现。这样的好处就是与Hadoop无缝融合，但是，MapReduce模型最适用的场景是聚集类的操作，即数据库中的Group By，其模型并不是为Join量身打造，即使能够通过设计实现Join操作，但是效率以及可选择性上也大大折扣，有点削足适履的感觉。

我觉得如果不拘束在MapReduce模型上，而是对于各种操作寻求最合适的模型而不是拘束在MapReduce模型上，但是充分吸收其Fault Tolerance的特性，可能会较好。

但是，Fault Tolerance的满足需要对中间结果进行物化，这与Pipeline又会矛盾。两者需要寻找一个平衡点。我觉得部分物化、部分Pipeline的方式也许是一种选择，类似于checkpoint。这样Fault Tolerance的粒度不是MapReduce模式下的单个操作，也不是Pipeline模式下的整个查询，而是居中，即查询中的子操作块。

总的感觉，Hive的工作更倾向于工程，而不是模式的创新。但是作为初级产品，还是很有意义的。

Hive和并行数据仓库的比较的更多相关文章

Hive分布式的数据仓库
1.hive介绍 hive是一个数据仓库的解决方案,它的数据存储依赖于HDFS,数据结算依赖于MR,也就是说,hive就是一个在数据仓库的服务,它只需要安装到一台普通的PC上即可,仅仅对外提供SQL服 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
hive数据仓库入门到实战及面试
第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...
漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理.设计.以及在我们大数据场景下的实现方式. 全文由下面几个部分组成: 先分享一下拉链表的用途.什么是拉链表. 通过一些小的使用场景来对拉链表做近 ...
一个数据仓库时代开始--Hive
一.什么是 Apache Hive? Apache Hive 是一个基于 Hadoop Haused 构建的开源数据仓库系统,我们使用它来查询和分析存储在 Hadoop 文件中的大型数据集.此外,通过 ...
数据仓库与hive
数据仓库与hive hive--数据仓库建模工具之一一.数据库.数据仓库 1.1 数据库关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel ...
Hive学习笔记（一）
摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.H ...
Hive介绍、安装（转）
1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语 ...
Hive与数据库的异同
一.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习 ...

随机推荐

SAFESEH 映像是不安全的
1.打开该项目的“属性页”对话框 2.然后单击“链接器”--“命令行”,出现如下界面 3.将 /SAFESEH:NO 复制到“其它选项(D)”框中,然后点击应用返回VS2013,重新编译运行程序即可 ...
ubuntu交换Caps 和 ESC
https://askubuntu.com/questions/363346/how-to-permanently-switch-caps-lock-and-esc This will allow y ...
javascript:FileReader对象（读取文件）
FileReader对象 1.检测浏览器对FileReader的支持 1 if(window.FileReader) { 2 var fr = new FileReader(); 3 // add y ...
python语言中的数据类型之元组
数据类型元组 tuple 元组:不可变类型用途:元组就是一个不可变的列表,当需要存不改动的值时可用元组定义方式:在()内用逗号分隔开多个任意类型的元素 t=(1,2.2,'aa',( ...
Java IO流学习总结五：转换流-InputStreamReader、OutputStreamWriter
类的继承关系 Reader |__ BufferedReader.StringReader.InputStreamReader |__ FileReader Writer |__ BufferedWr ...
python桌面端开发手记（序列化、压缩包、加密、图形界面GUI）
0x00 前段时间接到一个小项目是给某行业内部开发离线桌面端,业务流实现上总体分信息录入.加密导出.因为是win桌面端,所以老板说依托Access用VBA做,我据理力争了一下.之前就是用Acces ...
java资源文件解读
[1]从零开始建工程最简单的:http://www.cnblogs.com/alipayhutu 其中d)换作: ApplicationContext context = new ClassPath ...
week05 05restful api
和第一个项目一样然后去App.js注册一下但是呢新闻是写死在现在主要输调通前端client和后端server 持续获取新闻至于真假先不考虑下面我们回到前端NewsPanel 这个reque ...
C# 依赖注入那些事儿
原文地址:http://www.cnblogs.com/leoo2sk/archive/2009/06/17/1504693.html 里面有一个例子差了些代码,补全后贴上. 3.1.3 依赖获取 u ...
Pandas时间序列
Pandas时间序列 pandas 提供了一组标准的时间序列处理工具和数据算法数据类型及操作 Python 标准库的 datetime datetime 模块中的 datetime. time. c ...

Hive和并行数据仓库的比较

Hive和并行数据仓库的比较的更多相关文章

随机推荐

热门专题