hive体系结构

1、什么是hive

Hive是一个基于Hadoop的数据仓库，可以将结构化数据映射成一张表，并提供类SQL的功能，最初由Facebook提供，使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层，设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据，2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整的SQL功能（本质是将SQL转换为MapReduce），自身最大的缺点就是执行速度慢。Hive有自身的元数据结构描述，可以使用MySql\ProstgreSql\oracle 等关系型数据库来进行存储，但请注意Hive中的所有数据都存储在HDFS中。Hive具有比较好的灵活性和扩展性，支持UDF，自定义存储格式，适合离线数据处理。Hive在hadoop生态系统中地位如下图所示：

2、hive的架构

用户接口：client

CLI（hive shell）、JDBC/ODBC（java访问hive），WEBUI（浏览器访问hive）

元数据：metastore

元数据包括：表名、表所属数据库、表的拥有者、列/分区字段、表的类型、表数据所在目录。

Hadoop

使用hdfs进程数据存储，运行在yarn上，使用mapreduce进行计算。

驱动器：dirver

包含：解析器、编译器、优化器、执行器

解析器：将SQL字符串转换成抽象语法树AST，这一步一般都是用第三方工具库完成，比如antlr；对AST语法树进行分析，比如表否存在、字段是否存在、SQL语义是否有误。

编译器：将AST编译生成逻辑执行计划。

优化器：对逻辑执行计划进行优化。

执行器：把逻辑执行计划转换成物理执行计划。对于hive来说，就是MR/TEZ/Spark；

3、hive的优点及使用场景

1）操作接口使用SQL语法，提供快速开发的能力。

2）避免了去屑mapreduce，减少开发人员学习成本。

3）统一元数据管理，可与impala/spark等共享元数据。

4）因底层基于hadoop，易于扩展，支持自定义函数UDF。

5）数据离线处理，比如日志分析，海量数据结构化分析。

6）Hive执行延迟比较高，适合于做离线分析处理，不适合实时查询。

7）Hive优势在于处理大数据集，对于小数据集没有优势。

hive体系结构的更多相关文章

HIve体系结构，hive的安装和mysql的安装，以及hive的一些简单使用
Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同 ...
Hive体系结构介绍
http://www.aboutyun.com/thread-6217-1-1.html 1.Hive架构与基本组成下面是Hive的架构图. 图1.1 Hive体系结构 Hive ...
Hive 体系结构介绍
下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI.其中最常用的是CLI,Cli启动的时候,会同时 ...
Hive 体系结构
1.Hive架构与基本组成下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 W ...
Spark入门实战系列--5.Hive（上）--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
Hive介绍、安装（转）
1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语 ...
hive踩过的小坑
上周使用hive做一些操作,几个小问题纠结很久.特此记录下: hive概念 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以 ...
hive学习笔记_hive的介绍与安装
一.什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据 ...
Hive深入浅出
1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of ...

随机推荐

诡异的DataTime.Now.ToString()
昨天晚上调程序的时候在服务器上出现这种问题 DataTime.Now.ToString("yyyy-MM-dd HH:mm:ss") 居然出现了2014-8-14 8:nn:14: ...
MacOS的多重启动工具
在osx Lion升级到Mavericks后原有的refit(http://refit.sourceforge.net)启动管理工具就失效了,refit已经停止更新,新的分支项目时rEFInd(htt ...
Redis 集群配置
Redis 集群介绍: (1) 为什么要使用集群:如果数据量很大,单台机器会存在存储空间不够用 .查询速度慢 .负载高等问题,部署集群就是为了解决这些问题(2) Redis 集群架构如下,采用无中心结 ...
CMake INSTALL 命令设置exe dll lib的安装位置
install(TARGETS ${OUT_NAME} RUNTIME DESTINATION ${CMAKE_BINARY_DIR}/bin LIBRARY DESTINATION ${CMAKE_ ...
AngularJS的初步学习（1）
AngularJS 是一个Javascript框架.它可通过 <script> 标签添加到 HTML 页面.AngularJS 通过指令扩展了 HTML,且通过表达式绑定数据到 HT ...
基础知识《十一》Java异常处理总结
Java异常处理总结异常处理是程序设计中一个非常重要的方面,也是程序设计的一大难点,从C开始,你也许已经知道如何用if...else...来控制异常了,也许是自发的,然而这种控制 ...
WP8.1学习系列(第十八章)——Windows Phone 交互和可用性
本主题讨论了布局会对应用的可用性产生怎样的影响.在应用的可用性上下文中还讨论了其他常用 UI,例如搜索和设置. 在继续使用控件和交互之前,请执行以下操作: 有关概念化应用的策略,请参阅尽你所能,设计最 ...
【Python】给程序加个进度条
对于开发或者运维来说,使用 Python 去完成一些跑批任务,或者做一些监控事件是非常正常的情况.那么如何有效地监控任务的进度?除了在任务中加上 Log 外,还能不能有另一种方式来了解任务进展到哪一步 ...
python爬虫---->scrapy的使用(一)
这里我们介绍一下python的分布式爬虫框架scrapy的安装以及使用.平庸这东西犹如白衬衣上的污痕,一旦染上便永远洗不掉,无可挽回. scrapy的安装使用我的电脑环境是win10,64位的.py ...
【大数据系列】hive安装及启动
一.安装好jdk和hadoop 二.下载apache-hive https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.0/ 三.解压到安装 ...

hive体系结构

hive体系结构的更多相关文章

随机推荐

热门专题