Hive学习之路（一）Hive初识

Hive简介

什么是Hive

Hive由Facebook实现并开源
是基于Hadoop的一个数据仓库工具
可以将结构化的数据映射为一张数据库表
提供HQL（Hive SQL）查询功能
底层数据是存储在HDFS上
Hive的本质是将SQL语句转换为MapReduce任务运行
使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据，适用于离线的批量数据计算

为什么使用Hive

直接使用MapReduce所面临的问题：

人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

为什么要使用Hive：

更友好的接口：操作接口采用类SQL的语句，提供快速开发的能力
更低的学习成本：避免了写MapReduce，减少开发人员的学习成本
更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

Hive的特点

优点：

可扩展性、横向扩展：Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
- 横向扩展：通过分担压力的方式扩展集群的规模
- 纵向扩展：一台服务器cpu i7
延展性：
良好的容错性

缺点：
Hive不支持记录级别的增删改查
Hive的查询延迟很严重
Hive不支持事务

Hive和RDBMS的对比

对比项	Hive	RDBMS
查询语言	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
执行器	MapReduce	Executor
数据插入	支持批量导入/单条插入	支持批量导入/单条插入
处理数据规模	大	小
执行延迟	高	低
分区	支持	支持
索引	0.8版本之后加入简单索引	支持复杂的索引
扩展性	高（好）	有限（查）
数据加载模式	读时模式（快）	写时模式（慢）
应用场景	海量数据查询	实时查询

总结：

Hive具有SQL数据库的外表，但应用场景完全不同，Hive只适合用来做海量离线数据统计分析，也就是数据仓库。

Hive架构

1. 用户接口：shell/CLI，jdbc/odbc.webui Command Line Interface

CLI,Shell终端命令行（Command Line Interface），采用交互形式使用hive命令与Hive进行交互，最常用（学习，调试，生产）

2.跨语言服务：thrift server 提供了一种能力，让用户可以使用多种不同的语言来操作Hive

3.底层的Driver：驱动器Driver，编辑器Compiler，优化器Optimizer，执行器Executor

4.元数据存储系统：RDBMS MySQL

元数据：通俗的讲，就是存储在Hive中的数据的描述信息。

Hive学习之路（一）Hive初识的更多相关文章

[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
Redis——学习之路四（初识主从配置）
首先我们配置一台master服务器,两台slave服务器.master服务器配置就是默认配置端口为6379,添加就一个密码CeshiPassword,然后启动master服务器. 两台slave服务 ...
Redis——学习之路三（初识redis config配置）
我们先看看config 默认情况下系统是怎么配置的.在命令行中输入 config get *(如图) 默认情况下有61配置信息,每一个命令占两行,第一行为配置名称信息,第二行为配置的具体信息. ...
Redis——学习之路二（初识redis服务器命令）
上一章我们已经知道了如果启动redis服务器,现在我们来学习一下,以及如何用客户端连接服务器.接下来我们来学习一下查看操作服务器的命令. 服务器命令: 1.info——当前redis服务器信息 s ...
Hive学习之路（一）Hive初识
Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive S ...
Hive学习之路（二十一）Hive 优化策略
一.Hadoop 框架计算特性 1.数据量大不是问题,数据倾斜是个问题 2.jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个 jobs,耗时很长.原 ...
Hive学习之路（二）Hive安装
Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive ...
Hive学习之路（二十）Hive 执行过程实例分析
一.Hive 执行过程概述 1.概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Opera ...
Hive学习之路（十八）Hive的Shell操作
一.Hive的命令行 1.Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. s ...
Hive学习之路（十一）Hive的5个面试题
一.求单月访问次数和总访问次数 1.数据说明数据字段说明用户名,月份,访问次数数据格式 A,, A,, B,, A,, B,, A,, A,, A,, B,, B,, A,, A,, B,, B ...

随机推荐

idea下载和设置自动翻译（有道）
1:下载点击file,点击settings,找到plugins,之后所搜translation并下载,他会自动从新启动idea 2:设置translation 3:这个应用ID和秘钥需要在有道智云去 ...
Hibernate的HQL多表查询
HQL的内连接查询对于HQL内链接查询,查询的是两张表的数据,这两张表的数据首先是保存在数组之中,然后在将每一个数组保存在List集合之中进行返回代码片段: @Test // 内连接 public ...
Pycharm 修改项目名称后中括号中出现先前名称怎么解决？
这时候,你打开工程的路径,会找到一个隐藏文件, .idea 目录删掉他,重新导入Pycharm 就行了. idea记录了一些工程项目信息. 步骤: 1.退出当前工程 2.打开工程路径删除.ideal ...
SSM框架—Spring+SpringMVC+MyBatis
1.环境搭建 1.1概念 Spring是一个Java应用的开源框架,Bean/Context/Core/IOC/AOP/MVC等是其重要组件,IOC控制反转,AOP面向切面编程,各种注入方式,实现方式 ...
java枚举详解
枚举的本质是类,枚举是用来构建常量数据结构的模板(初学者可以以此方式理解: public static final X=xxx),枚举的使用增强了程序的健壮性,在引用一个不存在的枚举值的时候,编译器会 ...
[SP3267]DQUERY - D query
题目传送门维护一个区间内不同数的个数,最直观的想法是直接排序后用树状数组维护即可.但是我们发现n只有3e4,于是我们想到了可以拿一个$O(n\sqrt{n})$的莫队维护.关于莫队算法如果有不知道的 ...
持续集成工具——Jenkins
一.jenkins简介 1.持续集成工具 2.基于JAVA环境二.环境搭建 1.安装JDK 2.安装配置git 3.安装配置tomcat Tomcat是针对Java的一个开源中间件服务器(容器),基 ...
Oracle之共享服务器模式
在共享服务器体系结构中,一个dispatcher分派器将传入网络的多个会话请求定向到一个共享服务器进程池,消除了为每个连接分配一个专用服务器进程的需要.作为一般的指导原则,仅当系统需要并发连接到数据库 ...
【Matlab技巧】工作区变量如何添加到Simulink中？
对新手来说,在进行simulink仿真时想把工作区的变量添加到Simulink中,这样在如transfer模块中使用时可以直接输变量即可. 如这样: 那么如何对Simulink仿真文件自动赋值呢? 1 ...
Angular.js 使用$http的response得到的phone属性为undefined
这是个坑~ 先说解决方案:把response打印出来找你的属性记录一下,经验不足,有些东西想当然了,所有错误出现都应该一步步去排查!!!切记想当然的自以为. 源码: js $scope.phone= ...

Hive学习之路（一）Hive初识

Hive简介

什么是Hive

为什么使用Hive

Hive的特点

Hive和RDBMS的对比

Hive架构

1. 用户接口：shell/CLI，jdbc/odbc.webui Command Line Interface

2.跨语言服务：thrift server 提供了一种能力，让用户可以使用多种不同的语言来操作Hive

3.底层的Driver：驱动器Driver，编辑器Compiler，优化器Optimizer，执行器Executor

4.元数据存储系统：RDBMS MySQL

Hive学习之路（一）Hive初识的更多相关文章

随机推荐

热门专题