hive体系结构

1、什么是hive

Hive是一个基于Hadoop的数据仓库，可以将结构化数据映射成一张表，并提供类SQL的功能，最初由Facebook提供，使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层，设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据，2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整的SQL功能（本质是将SQL转换为MapReduce），自身最大的缺点就是执行速度慢。Hive有自身的元数据结构描述，可以使用MySql\ProstgreSql\oracle 等关系型数据库来进行存储，但请注意Hive中的所有数据都存储在HDFS中。Hive具有比较好的灵活性和扩展性，支持UDF，自定义存储格式，适合离线数据处理。Hive在hadoop生态系统中地位如下图所示：

2、hive的架构

用户接口：client

CLI（hive shell）、JDBC/ODBC（java访问hive），WEBUI（浏览器访问hive）

元数据：metastore

元数据包括：表名、表所属数据库、表的拥有者、列/分区字段、表的类型、表数据所在目录。

Hadoop

使用hdfs进程数据存储，运行在yarn上，使用mapreduce进行计算。

驱动器：dirver

包含：解析器、编译器、优化器、执行器

解析器：将SQL字符串转换成抽象语法树AST，这一步一般都是用第三方工具库完成，比如antlr；对AST语法树进行分析，比如表否存在、字段是否存在、SQL语义是否有误。

编译器：将AST编译生成逻辑执行计划。

优化器：对逻辑执行计划进行优化。

执行器：把逻辑执行计划转换成物理执行计划。对于hive来说，就是MR/TEZ/Spark；

3、hive的优点及使用场景

1）操作接口使用SQL语法，提供快速开发的能力。

2）避免了去屑mapreduce，减少开发人员学习成本。

3）统一元数据管理，可与impala/spark等共享元数据。

4）因底层基于hadoop，易于扩展，支持自定义函数UDF。

5）数据离线处理，比如日志分析，海量数据结构化分析。

6）Hive执行延迟比较高，适合于做离线分析处理，不适合实时查询。

7）Hive优势在于处理大数据集，对于小数据集没有优势。

hive体系结构的更多相关文章

HIve体系结构，hive的安装和mysql的安装，以及hive的一些简单使用
Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同 ...
Hive体系结构介绍
http://www.aboutyun.com/thread-6217-1-1.html 1.Hive架构与基本组成下面是Hive的架构图. 图1.1 Hive体系结构 Hive ...
Hive 体系结构介绍
下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI.其中最常用的是CLI,Cli启动的时候,会同时 ...
Hive 体系结构
1.Hive架构与基本组成下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 W ...
Spark入门实战系列--5.Hive（上）--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
Hive介绍、安装（转）
1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语 ...
hive踩过的小坑
上周使用hive做一些操作,几个小问题纠结很久.特此记录下: hive概念 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以 ...
hive学习笔记_hive的介绍与安装
一.什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据 ...
Hive深入浅出
1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of ...

随机推荐

vim分屏
使用vim分屏的时候 ,可以在终端直接输入 vim -On 1.php 2.php 3.php 垂直分屏三个文件如果是在某个窗口里面想打开另外一个文件如何做呢? 按下esc,然后按下冒号输入回 ...
【GIS】Cesium1.49编译
1.npm install 2.npm install --save-dev gulp 3.gulp default 4.npm run build 5.npm start 遇到问题 1.gulp不好 ...
windows自启动脚本
直接写一个普通批处理文件,如果是需要让它在系统启动时运行, 就将它放在C:\Windows\System32\GroupPolicy\Machine\Scripts\Startup目录下, 如果是需要 ...
mysql5.7 服务无法启动的问题解决方法
解决办法: 1.把MySQL文件低下的data文件删掉,如果没有的话,就不用管了: 2.在mysql安装路径下,执行mysqld --initialize命令进行初始化,mysql会自动帮你重新创建d ...
Nginx 域名重定向
假设 www.old.com 为旧的域名,而 www.new.com 为新的域名,要实现当我们访问 new 的时候自动重定向到 old 域名,配置如下: server { //第一种配置方法 serv ...
解决nginx中fastcgi(php-fpm)60s超时的问题
在配置中加上 location ~ .*\.(php|php5)?$ { fastcgi_pass 127.0.0.1:9000; fastcgi_read_timeout 700; fastcgi_ ...
WinDBG 技巧：列出模块(DLL/EXE)里面所有的符号(symbol)
想对某个函数下断点,但是记不清楚的函数具体的名字,这个时侯可以使用x命令来列举所有的符号. 命令格式为: x [选项] 模块名字!符号匹配表达式这里的符号匹配表达式类似dos的文件名匹配表达式,可以 ...
使用CreateProcess创建新的process 并返回process运行结束返回值
转自:http://blog.csdn.net/zgl7903/article/details/5975284 转载这篇主要是记住:获得create的新进程运行结束时的返回值的方法如下: #in ...
No.3 PyQt学习
使用box布局,写了一个系统的主页(非常丑) 代码如下: # -*- coding: utf-8 -*- import sys from PyQt4.QtGui import * from PyQt ...
linux下删除大量小文件
当目录下文件太多时,用rm删除文件会报错:-bash: /bin/rm: Argument list too long提示文件数目太多.解决的办法是使用如下命令:ls | xargs -n 10 rm ...

hive体系结构

hive体系结构的更多相关文章

随机推荐

热门专题