Hive——简介

Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能.可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL。

Hive的产生背景及介绍

产生背景

1)MapReduce编程的不便性（MapReduce编程十分繁琐，而且不方便修改）

2)HDFS上缺少Schema

Hive是什么

1)由FaceBook开源，最初用于解决海量结构化的日志数据统计问题

2)构建在hadoop上的数据仓库

3)Hive定义了一种类SQL查询语言：HQL(类似sql但不完全相同)

4)通常用于进行离线数据处理(早期底层采用mapreduce)

5)底层支持多种不同执行引擎

6)支持多种不同的压缩格式、存储格式以及自定义函数

（Hive现在的底层执行引擎支持很多包括spark(Hive on spark)，mapreduce(Hive on mapreduce)、Tez(Hive on Tez)）

为什么要用Hive（Hive的优势）

1)简单、容易上手（提供了类似sql查询语言hql）

2)为超大数据集设计的计算/存储扩展能力（MR计算，HDFS存储）

3)统一的元数据管理（可于Presto/Impala/SparkSQL等共享数据）

Hive的发展历程

在Hive的发展历程中，不得不提的就是Stinger

Stinger分了几个阶段来做：Phase 1、2、3 ，Stringer.next；这几个阶段对Hive性能的提升是非常至关重要的

07/08 facebook

13/05 hive-0.11 Stinger Phase 1 加入了ORC/HiveServer2

13/10 hive-0.12 Stinger Phase 2 ORC improvement(对ORC做了些改善)

14/04 hive-0.13 Stinger Phase 3 Tez/Vectorized query engine(加入了Tez和支持向量化的查询)

14/11 hive-0.14 Stinger.next Phase 1 Cost-based optimizer(Cost-based简称CBO)

(The Stinger Initiative making Apache Hive 100 times faster)

Hive系统架构

Command-line shell：shell操作客户端

Trift/JDBC：Thrift代表一种协议/服务端启起来，客户端可以通过JDBC的方式去访问

Driver:接收sql做相应的分析处理：

1）首先将SQL语句转换成抽象语法树(抽象语法树拿到是不能执行的)

2）将抽象语法树转换成逻辑执行计划

3）对逻辑执行计划进行优化，形成物理执行计划，优化之后才能够变成作业去运行

MapReduce:底层执行引擎

HadoopStorage:计算结果输出存储

Metastore:元数据存储

1）metastore默认是存放在derby库中，通常现实中部署都是存放在mysql库中。其中生产上存储metastore的mysql要做HA.

2）metastore包括的内容：

1>：database: name,location,owner,name

2>：table: name,owner,location,column name/type/index,createtime

3）hive的metastore是和Spark/impala通用的，例如在hive中创建一张表，在Spark/impala中也能使用，反之Spark/impala创建的表在hive中也能使用。

Hive部署架构

注意点：1）生产上部署时Hive的元数据存储的数据库要做主备。

2）Hive不需要部署在每台机器上，一台就行，他就是一个客户端，解析你的sql生成mr交给yarn运行

Hive——简介的更多相关文章

Hive入门学习--HIve简介
现在想要应聘大数据分析或者数据挖掘岗位,很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术.为了充实自己就先从简单的Hive开始吧.接下来的几篇文章是记录我如何入门学习Hi ...
大数据 Hive 简介
第一部分:Hive简介什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. •本质是将SQL转换为MapReduce程序 ...
Hive简介及使用
一.Hive简介 1.hive概述 Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集. 可以将结构投影到已存储的数据中.提供了命令行工具和JDBC驱动 ...
Hadoop入门第五篇:Hive简介以及部署
标签(空格分隔): Hadoop Hive hwi 1.Hive简介之前我一直在Maxcompute上进行大数据开发,所以对数仓这块还算比较了解,在接受Hive的时候基本上没什么大的障碍.所以, ...
数据仓库Hive（一）——hive简介，产生，安装
1.Hive简介数据仓库解释器.编译器.优化器等运行时,元数据存储在关系型数据库里面 1.1数据库和数据仓库的区别数据库需要立即返回结果,数据仓库不需要数据仓库能收纳各种数据源,而数据库只能 ...
Hive简介
实验简介我们本节课程主要介绍 Hive 的相关知识,将会涉及以下内容: Hive 的定义 Hive 的体系结构 Hive 与关系数据库的区别 Hive 的应用场景 Hive 的存储一.什么是 Hi ...
【Hive学习之一】Hive简介
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
HIVE简介及安装
一.简介百度百科HIVE定义: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运 ...
Apache Hive 简介及安装
简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能. 本质是将 SQL 转换为 MapReduce 程序. 主要用途:用来 ...

随机推荐

使用nGraph的Intel®Xeon®上的高性能TensorFlow
使用nGraph的IntelXeon上的高性能TensorFlow High-performance TensorFlow* on Intel Xeon Using nGraph 最近宣布了nGrap ...
node和gulp版本的坑
现在node版本最新的稳定版在14+ 然后我在接手项目的时候使用gulp打包,怎么也打包不了,这个问题纠结了挺久,然后百度了下,发现版本的问题 node 12+ 以上的版本不兼容 gulp 3的版本 ...
Unicode编码转换， MD5加密，URL16进制加密解密
一.站长网址:http://www.msxindl.com/ 1.Unicode与中文互转 16进制Unicode编码转换.还原 :http://www.msxindl.com/tools/uni ...
vue keep-alive从列表页进入详情页，再返回列表页时，还是之前滚动的位置
//router.js { path: '/oppo-music', component: () => import('@/views/OppoMusic.vue'), meta: { titl ...
SpringCloud 面试题（持续更新、吐血推荐）
文章很长,建议收藏起来,慢慢读! 疯狂创客圈为小伙伴奉上以下珍贵的学习资源: 疯狂创客圈经典图书 : <Netty Zookeeper Redis 高并发实战> 面试必备 + 大厂必备 ...
用好idea这几款插件，可以帮你少写30%的代码
Easycode是idea的一个插件,可以直接对数据的表生成entity,controller,service,dao,mapper,无需任何编码,简单而强大. 1.安装(EasyCode) 我这里的 ...
Java代码优化：使用构造函数和使用一个个setter的效率差别
在对Java代码进行优化的时候,想方设法的要提高整体的效率,使用JProfiler看代码的时间占比,然后,看看哪些部分是可以优化的,减少运行时间的.下面有这么几个方向. 1. 能使用构造函数一步到位的 ...
合宙模块LUA相关资料汇总
1. 目录 1. 目录 [2. LUA二次开发](#2. LUA二次开发) 2.1 [新手教程](#2.1 新手教程) 2.2 [进阶教程](#2.2 进阶教程) 2.3 [LUA开发环境](#2.3 ...
noip2013 总结
转圈游戏题目 n 个小伙伴(编号从 0 到 n-1)围坐一圈玩游戏.按照顺时针方向给 n 个位置编号,从0 到 n-1.最初,第 0 号小伙伴在第 0 号位置,第 1 号小伙伴在第 1 号位置,-- ...
Go语言判断一个字节的高位大于四
Go语言判断一个字节的高位大于四 1.步骤: 第一步,将该字节的低位清零(与0xF0进行&运算) 为了后面与0x40比较 0xF0转为二进制是1111 0000,&运算(两个同时为1, ...

Hive——简介

Hive——简介的更多相关文章

随机推荐

热门专题