Hive记录-Hive介绍（转载）

1.Hive是什么？

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，将类 SQL 语句转换为 MapReduce 任务执行。

2.Hive数据结构-HDFS-Table-Partiton-Bucket

Table：每个表存储在HDFS上的一个目录下
Partition(可选)：每个Partition存储再Table的子目录下
Bucket(可选)：某个Partition根据某个列的hash值散列到不同的Bucket中，每个Bucket是一个文件

3.Hive架构

由上图可知，hadoop 和 mapreduce 是 hive 架构的根基。

MetaStore：存储和管理Hive的元数据，使用关系数据库来保存元数据信息。

解释器和编译器：将SQL语句生成语法树，然后再生成DAG，成为逻辑计划

优化器：只提供了基于规则的优化

列过滤：只查询投影列

行过滤：子查询where语句包含的partition

谓词下推：减少后面的数据量

Join方式

Map join：一大一小的表，将小表广播(指定后在执行前统计，没有数据直方图)

shuffle join：按照hash函数，将两张表的数据发送给join

sort merge join：排序，按照顺序切割数据，相同的范围发送给相同的节点(运行前在后台创建立两张排序表，或者建表的时候指定)

执行器：执行器将DAG转换为MR任务

4.Hive特点

·Hive 最大的特点是 Hive 通过类 SQL 来分析大数据，而避免了写 MapReduce 程序来分析数据，这样使得分析数据更容易

·Hive 是将数据映射成数据库和一张张的表，库和表的元数据信息一般存在关系型数据库上（比如 MySQL）

·Hive 本身并不提供数据的存储功能，数据一般都是存储在 HDFS 上的（对数据完整性、格式要求并不严格）

·Hive 很容易扩展自己的存储能力和计算能力，这个是继承自 hadoop 的（适用于大规模的并行计算）

·Hive 是专为 OLAP 设计，不支持事务

5.Hive流程

执行流程详细解析

Step 1：UI(user interface) 调用 executeQuery 接口，发送 HQL 查询语句给 Driver

Step 2：Driver 为查询语句创建会话句柄，并将查询语句发送给 Compiler，等待其进行语句解析并生成执行计划

Step 3 and 4：Compiler 从 metastore 获取相关的元数据

Step 5：元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词调整分区，生成计划

Step 6 (6.1，6.2，6.3)：由 Compiler 生成的执行计划是阶段性的 DAG，每个阶段都可能会涉及到 Map/Reduce job、元数据的操作、HDFS 文件的操作，Execution Engine 将各个阶段的 DAG 提交给对应的组件执行。

Step 7, 8 and 9：在每个任务（mapper / reducer）中，查询结果会以临时文件的方式存储在 HDFS 中。保存查询结果的临时文件由 Execution Engine 直接从 HDFS 读取，作为从 Driver Fetch API 的返回内容。

容错（依赖于 Hadoop 的容错能力）

Hive 的执行计划在 MapReduce 框架上以作业的方式执行，每个作业的中间结果文件写到本地磁盘，从而达到作业的容错性。

最终输出文件写到 HDFS 文件系统，利用 HDFS 的多副本机制来保证数据的容错性。

6.Hive缺陷

MapReduce：

Map任务结束后，要写磁盘

一个MapReduce任务结束后，需要将中间结果持久化到HDFS

DAG生成MapReduce任务时，会产生无谓的Map任务

Hadoop在启动MapReduce任务要消耗5-10秒，需要多次启动MapReduce任务

7.SparkSQL

SparkSQL在架构上和Hive类似，只是底层把执行引擎MapReduce替换为执行引擎Spark

Hive记录-Hive介绍（转载）的更多相关文章

Hive记录-Hive on Spark环境部署
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on ...
Hive记录-Hive常用命令操作
1.hive支持四种数据模型 • external table ---外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该 ...
Hive记录-Hive调优
1.Join优化 a.map join b.reduce join 小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/ 如果想自动开启map端Jo ...
Hive记录-hive权限控制
在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下: <property> <name>hive.security.authori ...
Hive学习笔记【转载】
本文转载自:http://blog.csdn.net/haojun186/article/details/7977565 1. HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础构架. ...
hive中简单介绍分区表
所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正! hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者 ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
Hive记录-部署Hive环境
1.配置 hive1.2.0(前提要配置hadoop2.7.2,前面文档有介绍) #官网下载二进制包,解压到/usr/app 下,配置/etc/profile: export HIVE_HOME=/u ...
Hive记录-配置远程连接（JAVA/beeline）
1.修改配置hive-site.xml hadoop core-site.xml限制---参考Hive记录-部署Hive环境 2.启动hadoop #sh /usr/app/hadoop/sbi ...

随机推荐

TCP系列11—重传—1、TCP重传概述
在最开始介绍TCP的时候,我们就介绍了TCP的三个特点,分别是面向连接.可靠.字节流式.前面内容我们已经介绍过了TCP的连接管理,接下来的这部分内容将会介绍与TCP可靠性强关联的TCP重传. 很多网络 ...
css3-弹性盒模型
first <style> .box{width:1024px;height:100px; border:5px solid black; padding:10px; display:-w ...
兼容IE-FireFox-Chrome的背景音乐播放
以music目录下的kn.mp3文件为例: <bgsound src="music/kn.mp3" loop="-1"/> <audio sr ...
Facebook 50%用户是虚假账号？我觉得可以更高！
0x00 背景今天下午看新闻时,无意看到一条关于facebook虚假帐号(fake account)消息: 一下子就被这标题吸引了眼球,因为作为一个第三方机构,能够对facebook这样如此海量的帐 ...
php实现常驻进程多进程监控
php都是通过crontabd定时脚本处理队列的,面试被问到php如何常驻进程进行处理队列,想了半天这样不知道是否是一种方式 <?php function logs(){ file_put_co ...
Spring 入门知识点笔记整理
一.Spring 概述 1. 什么是spring? Spring 是个java企业级应用的开源开发框架.Spring主要用来开发Java应用,但是有些扩展是针对构建J2EE平台的web应用.Sprin ...
arctan
ArcTanWhen the ArcTan functional configuration is selected, the input vector (X_IN,Y_IN) is rotated( ...
BZOJ3732Network——kruskal重构树+倍增+LCA/最小生成树+倍增
题目描述给你N个点的无向图 (1 <= N <= 15,000),记为:1…N. 图中有M条边 (1 <= M <= 30,000) ,第j条边的长度为: d_j ( 1 & ...
BZOJ1124 POI2008枪战Maf（环套树+贪心）
每个点出度都为1,可以发现这张图其实是个环套树森林,树中儿子指向父亲,环上边同向. 首先自环肯定是没救的,先抬出去. 要使死亡人数最多的话,显然若一个点入度为0其不会死亡,而一个孤立的环至少会留下一个 ...
python基础成长之路四-基础数据类型方法
1,程序开发三大流程: 顺序--从上向下,顺序执行代码分支--根据条件判断,决定执行代码的分支循环--让特定的代码重复执行 2,whlie循环语句: Break 某一条件满足时,退出循环,不在执行 ...

Hive记录-Hive介绍（转载）

Hive记录-Hive介绍（转载）的更多相关文章

随机推荐

热门专题