Hadoop ->> HIVE

HIVE的由来：

最初由Facebook基于HDFS开发出来的一套数据仓库工具。

HIVE可以干什么？

HIVE可以将已经结构化的数据映射成一张表，然后可以使用HIVE语言像写T-SQL一样查询数据。而实际上，最后的HQL语句是被解析成了MapReduce任务去执行数据抽取、转换和加载工作。

HIVE的特点：

特点就是开发成本和学习成本低。只要你会写T-SQL你就会写HQL。因为如果我们要去提取HBase的文件块或者HDFS的文件来分析数据，就必须写复杂的MapReduce过程，但是如果用HIVE，它就帮你干了生成MapReduce过程这事。可以这么理解，HIVE就是一个SQL接口，可以方便我们查询HDFS的数据。百度百科上把它定义为数据仓库工具，准确一点说它是一个BI的分析工具。为什么这么讲？因为它身上的缺点决定了它只是一个BI的分析工具。缺点就是HIVE的数据不可更改，HDFS的文件是怎样它就是怎样。它只是把HDFS的数据复制到表所在的HDFS目录中，然后再用MapReduce方法操作数据。这就决定两点，首先是延迟或者无法实时查询数据。

HIVE数据管理：

可以这么理解，HIVE具备了关系数据库的许多特性，诸如像表、执行计划和T-SQL语法。当然不同的是，最后HIVE去操作的是HDFS的文件，而不是像SQL SERVER下面的页。那么也就不难理解HIVE的数据管理了：元数据存储、数据存储、用户接口和（解析器、编译器、优化器）。

元数据存储：和关系数据库中元数据一样，记录着表的结构信息和属性，比如表所在的目录，表是否为外部表，还有像分区的信息。这部分信息是存在MySQL或者Derby中的。

数据存储：和关系数据库不一样的是，HIVE的数据是没有类型的，也可以理解就是全部都是字符，栏位是通过列分隔符，行是通过行分隔符区分的。它就像ETL中加载一个平面文件，我们需要制定特定的分隔符才可以解析文件中的数据并加载到目标表中去。那说到了数据存储，HIVE中的数据存储逻辑单位又是怎样的呢？和关系数据库有什么相同点和区别的？HIVE的数据存储模型分为：Table、External Table、Partition和Bucket。可以说如果你了解SQL Server或者Oracle这样的数据库，基本上你就明白了。

Table：也就是关系数据库的表，这点没什么讲的。唯一一点需要讲的就是Table对应了HDFS下的一个目录。

External Table：和Oracle下的External Table概念是一样的。也就是说表不是来源于HDFS或者HBase的文件，数据是外部源的。这里我还没学到。估计也是和Oracle一样支持像Excel这种外部文件。

Partition和Bucket：为什么把两个一块讲呢？因为他们有相似的地方，就是通过一种维度把Table的数据分割开来存储。Partition和SQL Server下的Partition是相似的，SQL Server下每个Partition对应着一个B-tree，而这里每个Partition则对应着一个目录。而Bucket则和Oracle的Hash分区相似，就是将表的数据进行水平拆分，这点Teradata这样的分布式关系数据库也是利用了Hash算法对数据进行均匀拆分。Partition和Bucket都是拆分数据，不同的是Partition属于range拆分或者说不均匀拆分，拆分后的数据分区数量取决于选定的栏位的数据分布，容易出现数据分布不均匀。而Bucket则是均匀拆分的特点，而且数据还是离散分布的，不会像Partition那样是聚集的。

用户接口：Web界面，数据库连接接口这些都归为用户接口；

解析器、编译器、优化器：解析器对客户端提交的HQL语句进行语法检查、语义检查；编译器把HQL编译后转换成MapReduce任务；优化器寻求最优计划，比如是否要并行之类。

Hadoop ->> HIVE的更多相关文章

Hive创建表格报【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】引发的血案
在成功启动Hive之后感慨这次终于没有出现Bug了,满怀信心地打了长长的创建表格的命令,结果现实再一次给了我一棒,报了以下的错误Error, return code 1 from org.apache ...
FineReport中hadoop,hive数据库连接解决方案
1. 描述 Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具.一般来说我们对Hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连 ...
hive 使用where条件报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode
hadoop 版本 2.6.0 hive版本 1.1.1 错误: java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalk ...
hadoop+hive使用中遇到的问题汇总
问题排查方式一般的错误,查看错误输出,按照关键字google 异常错误(如namenode.datanode莫名其妙挂了):查看hadoop($HADOOP_HOME/logs)或hive日志 h ...
Hadoop Hive基础sql语法
目录 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的 ...
Sqoop是一款开源的工具，主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递
http://niuzhenxin.iteye.com/blog/1706203 Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql.. ...
Hadoop Hive与Hbase整合+thrift
Hadoop Hive与Hbase整合+thrift 1. 简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句 ...
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件 ...
Hadoop Hive与Hbase关系整合
用hbase做数据库,但因为hbase没有类sql查询方式,所以操作和计算数据很不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库 1. 基于Ha ...
Hadoop Hive sql 语法详细解释
Hive 是基于Hadoop 构建的一套数据仓库分析系统.它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,能够将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

随机推荐

江西理工大学南昌校区排名赛 B: 单身狗的数字游戏
题目描述萌樱花是一只单身狗. 萌樱花今天初始化了N个数字,使它们都为0 0 0 0... 萌樱花决定选取某一个位置,分别增加1到N(如果到达数组末尾就从头开始). 比如: 0 0 0(选择第二个位置 ...
VBS虚拟键盘十六进制列表
Set WshShell=WScript.CreateObject("WScript.Shell") '打开我的电脑WshShell.Sendkeys chr(&h88b6 ...
m3m4加载器的优化版m3m4-v1.1
m3m4加载器的优化版m3m4-v1.1 /* //1.以$开头的模块名,表示服务,服务只会执行一次,它可以有自己的方法.比如cookie就是一个服务 //例如:console.log("r ...
联想g400怎么进bios设置u盘启动图文教程
联想g400怎么进bios设置u盘启动图文教程转自http://www.kqidong.com/bios/3940.html 虽然成功学会u盘装系统的人很多,但是设置u盘启动在小白们的眼中却没有那么 ...
6.centos7 gitblit
1,安装注意事项 1)必须将gitblit安装在/opt/gitblit这个目录下,因为服务启动的脚本里面默认就是这个路径如果不按照这个路径安装需要修改脚本 mkdir -p /opt/gitbl ...
QiyeProject SpringMVC 项目 d15866p148.iok.la 主要做主页应用，消息应用不管了用户微信号有点像乱码的那个是openID 找同伴：在项目的GitHub页面里找提问过的人，还有fork，star的人
消息型应用支持文本.图片.语音.视频.文件.图文等消息类型. 主页型应用只支持文本消息类型,且文本长度不超过20个字. 填写必要信息 URL /QiyeProject/src/org/oms/qiye ...
python 爬虫系列05--丑事百科
丑事百科爬虫 import re import requests def parse_page(url): headers = { 'User-Agent':'user-agent: Mozilla/ ...
实现类似tail -f file功能
python版本py3 tail -f file是打印最后10行,然后跟踪文件追加的内容打印出来. python3 以为本方式打开的话,不能回退(f.seek(-1,1)),所有以'rb'方式打开文件 ...
webservice 介绍
Web service 即web服务,它是一种跨编程语言和跨操作系统平台的远程调用技术即跨平台远程调用技术. l 采用标准SOAP(Simple Object Access Protocol) 协议 ...
深入理解JavaScript系列（33）：设计模式之策略模式
介绍策略模式定义了算法家族,分别封装起来,让他们之间可以互相替换,此模式让算法的变化不会影响到使用算法的客户. 正文在理解策略模式之前,我们先来一个例子,一般情况下,如果我们要做数据合法性验证,很 ...

Hadoop ->> HIVE

Hadoop ->> HIVE的更多相关文章

随机推荐

热门专题