具体总结 Hive VS 传统关系型数据库

本文思路，看图说话，一张图，清晰总结二者差别

以下对图中的各条做具体总结

1、查询语言

不做赘述

2、数据存储位置

不做赘述

3、数据格式

Hive：Hive 中未定义专门的数据格式，数据格式能够由用户指定，用户定义数据格式须要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive
中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。

因为在载入数据的过程中，不须要从用户数据格式到 Hive 定义的数据格式的转换，因此，Hive 在载入的过程中不会对数据本身进行不论什么改动，而仅仅是将数据内容复制或者移动到对应的 HDFS 文件夹中。

数据库：不同的数据库有不同的存储引擎，定义了自己的数据格式。全部数据都会依照一定的组织存储，因此，数据库载入数据的过程会比較耗时。

4、数据更新

Hive：因为Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不支持对数据的改写和加入�，全部的数据都是在载入的时候就已经确定好的。

数据库：数据库数据一般是须要常常进行改动的，因此能够使用
INSERT INTO ... VALUES 加入�数据，使用UPDATE ... SET 改动数据。

5、索引

Hive：之前已经说过，Hive
在载入数据的过程中不会对数据进行不论什么处理，甚至不会对数据进行扫描，因此也没有对数据中的某些 Key 建立索引。Hive 要訪问数据中满足条件的特定值时，须要暴力扫描整个数据，因此訪问延迟较高。因为 MapReduce 的引入， Hive 能够并行訪问数据，因此即使没有索引，对于大数据量的訪问，Hive 仍然能够体现出优势。

数据库：数据库中，一般会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的訪问，数据库能够有非常高的效率，较低的延迟。因为数据的訪问延迟较高，决定了Hive不适合在线数据查询。

6、运行

Hive：Hive 中大多数查询的运行是通过 Hadoop 提供的 MapReduce 来实现的（类似
select *from tbl 的查询不须要MapReduce）。

数据库：数据库通常有自己的运行引擎。

7、运行延迟

Hive：之前提到，Hive 在查询数据的时候，因为没有索引，须要扫描整个表，因此延迟较高。另外一个导致 Hive 运行延迟高的因素是 MapReduce 框架。因为
MapReduce 本身具有较高的延迟，因此在利用 MapReduce 运行 Hive 查询时，也会有较高的延迟。

数据库：相对的，数据库的运行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive
的并行计算显然能体现出优势。

8、可扩展性

Hive：因为 Hive 是建立在 Hadoop 之上的，因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的（世界上最大的Hadoop 集群在 Yahoo!，2009年的规模在
4000 台节点左右）。

数据库：而数据库因为ACID 语义的严格限制，扩展行很有限。眼下最先进的并行数据库
Oracle 在理论上的扩展能力也仅仅有 100 台左右。

9、数据规模

Hive：因为 Hive 建立在集群上并能够利用 MapReduce 进行并行计算，因此能够支持非常大规模的数据。

数据库：相应的，数据库能够支持的数据规模较小。

具体总结 Hive VS 传统关系型数据库的更多相关文章

Sqoop是一款开源的工具，主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递
http://niuzhenxin.iteye.com/blog/1706203 Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql.. ...
MongoDB 与传统关系型数据库mysql比较
与关系型数据库相比,MongoDB的优点: 转载自 http://blog.sina.com.cn/s/blog_966e430001019s8v.html①弱一致性(最终一致),更能保证用户的访问 ...
BI-学习之商业智能平台的引入（传统关系型数据库的问题）
早在 SQL Server 2005里面就有了这种完整的商业智能平台了,那时候Nosql什么的都还停留在概念性的提出阶段,发展至2009年才一下子蹦了出来变得众所周知了.当然这个要扯就扯远了,咱们还 ...
Hbase与传统关系型数据库对比
在说HBase之前,我想再唠叨几句.做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了, ...
NoSQL数据库技术实战-第1章 NoSQL的数据一致性传统关系型数据库的ACID
在看着章节的时候,我简单的回顾了一下关系型数据库的事务处理的ACID原则,其中原子性和持久性比较好理解.由于以前没有深入去研究.关于一致性和隔离性上我产生了疑问,在整理后分析如下: 一致性:书中所 ...
非关系型数据库（NoSql）
最近了解了一点非关系型数据库,刚刚接触,觉得这是一个很好的方向,对于大数据方面的处理,非关系型数据库能起到至关重要的地位.这里我主要是整理了一些前辈的经验,仅供参考. 关系型数据库的特点 1.关系型 ...
[MongoDB]MongoDB的优缺点及与关系型数据库的比较
汇总: 1. [MongoDB]安装MongoDB2. [MongoDB]Mongo基本使用:3. [MongoDB]MongoDB的优缺点及与关系型数据库的比较4. [MongoDB]MongoDB ...
数据库:mongodb与关系型数据库相比的优缺点（转）
与关系型数据库相比,MongoDB的优点:①弱一致性(最终一致),更能保证用户的访问速度:举例来说,在传统的关系型数据库中,一个COUNT类型的操作会锁定数据集,这样可以保证得到“当前”情况下的精确值 ...
NoSQL：从关系型数据库到非关系型数据库
关系型数据库所谓关系型数据库,,就是指采用了关系模型来组织数据的数据库. 什么是关系模型,简单说,关系模型就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织. 关系模 ...

随机推荐

Spring的IOC
引用:http://www.cnblogs.com/xdp-gacl/p/4249939.html 学习过Spring框架的人一定都会听过Spring的IoC(控制反转) .DI(依赖注入)这两个概念 ...
如何把UIView转成UIImage，解决模糊失真问题
最近工作中,遇到一个需求,需要把一个UIView对象转成UIImage对象显示.经过网络搜索,找到如下答案: ? 1 2 3 4 5 6 7 8 -(UIImage*)convertViewToIma ...
UVA 246 - 10-20-30 (模拟+STL)
UVA 246 - 10-20-30 题目链接题意:给52张的扑克堆,先从左往右发7张牌,之后连续不断从左往右发7张牌,假设有牌堆形成了下面3种情况(按顺序推断): 1.头两张+尾一张和为10或20 ...
Ubuntu 12.04 搭建 Eclipse Android 开发环境(转)
Ubuntu 12.04 搭建 Eclipse Android 开发环境 http://blog.sina.com.cn/s/blog_93dc666c0101b39p.html (2012-09-0 ...
React-Native 获取node.js提供的接口
一个简单的React-Native 获取node.js提供的接口的实现一.node.js var http = require("http"); var url = requir ...
html 基础之 <link>标签
实例链接一个外部样式表: <head> <link rel="stylesheet" type="text/css" href=" ...
HDU 5728 - PowMod
HDU 5728 - PowMod 题意: 定义: k = ∑(i=1,m) φ(i∗n) mod 1000000007 给出: n,m,p ,且 n 无平方因子求: ans= k^(k^(k ...
QJson 的使用
下载源码解压 https://github.com/flavio/qjson 复制 src 目录下所有 .h .cpp .hh 文件到项目目录 qjson,pro 文件添加 INCLUDEPATH ...
SQL in Qt (一)
Connecting to Databases To access a database with QSqlQuery or QSqlQueryModel, create and open one o ...
IDEA12 KeyGen Download List
When you use IDEA to develop Java, you can use the following file to generate lincese. Because CNBlo ...

具体总结 Hive VS 传统关系型数据库

具体总结 Hive VS 传统关系型数据库的更多相关文章

随机推荐

热门专题