Hive简介

什么是Hive

  1. Hive由Facebook实现并开源
  2. 是基于Hadoop的一个数据仓库工具
  3. 可以将结构化的数据映射为一张数据库表
  4. 提供HQL(Hive SQL)查询功能
  5. 底层数据是存储在HDFS上
  6. Hive的本质是将SQL语句转换为MapReduce任务运行
  7. 使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据,适用于离线的批量数据计算

为什么使用Hive

​ 直接使用MapReduce所面临的问题:

  1. 人员学习成本太高
  2. 项目周期要求太短
  3. MapReduce实现复杂查询逻辑开发难度太大

为什么要使用Hive:

  1. 更友好的接口:操作接口采用类SQL的语句,提供快速开发的能力
  2. 更低的学习成本:避免了写MapReduce,减少开发人员的学习成本
  3. 更好的扩展性:可自由扩展集群规模而无需重启服务,还支持用户自定义函数

Hive的特点

​ 优点:

  1. 可扩展性、横向扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。

    • 横向扩展:通过分担压力的方式扩展集群的规模
    • 纵向扩展:一台服务器cpu i7
  2. 延展性:

  3. 良好的容错性

    缺点:

  4. Hive不支持记录级别的增删改查
  5. Hive的查询延迟很严重
  6. Hive不支持事务

Hive和RDBMS的对比

对比项 Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Raw Device or Local FS
执行器 MapReduce Executor
数据插入 支持批量导入/单条插入 支持批量导入/单条插入
处理数据规模
执行延迟
分区 支持 支持
索引 0.8版本之后加入简单索引 支持复杂的索引
扩展性 高(好) 有限(查)
数据加载模式 读时模式(快) 写时模式(慢)
应用场景 海量数据查询 实时查询

总结:

​ Hive具有SQL数据库的外表,但应用场景完全不同,Hive只适合用来做海量离线数据统计分析,也就是数据仓库。

Hive架构

1. 用户接口:shell/CLI,jdbc/odbc.webui Command Line Interface

CLI,Shell终端命令行(Command Line Interface),采用交互形式使用hive命令与Hive进行交互,最常用(学习,调试,生产)

2.跨语言服务:thrift server 提供了一种能力,让用户可以使用多种不同的语言来操作Hive

3.底层的Driver:驱动器Driver,编辑器Compiler,优化器Optimizer,执行器Executor

4.元数据存储系统:RDBMS MySQL

元数据:通俗的讲,就是存储在Hive中的数据的描述信息。

Hive学习之路(一)Hive初识的更多相关文章

  1. [转帖]Hive学习之路 (一)Hive初识

    Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介 什么是 ...

  2. Redis——学习之路四(初识主从配置)

    首先我们配置一台master服务器,两台slave服务器.master服务器配置就是默认配置 端口为6379,添加就一个密码CeshiPassword,然后启动master服务器. 两台slave服务 ...

  3. Redis——学习之路三(初识redis config配置)

    我们先看看config 默认情况下系统是怎么配置的.在命令行中输入 config get *(如图) 默认情况下有61配置信息,每一个命令占两行,第一行为配置名称信息,第二行为配置的具体信息.     ...

  4. Redis——学习之路二(初识redis服务器命令)

    上一章我们已经知道了如果启动redis服务器,现在我们来学习一下,以及如何用客户端连接服务器.接下来我们来学习一下查看操作服务器的命令. 服务器命令: 1.info——当前redis服务器信息   s ...

  5. Hive学习之路 (一)Hive初识

    Hive 简介 什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive S ...

  6. Hive学习之路 (二十一)Hive 优化策略

    一.Hadoop 框架计算特性 1.数据量大不是问题,数据倾斜是个问题 2.jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长.原 ...

  7. Hive学习之路 (二)Hive安装

    Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive ...

  8. Hive学习之路 (二十)Hive 执行过程实例分析

    一.Hive 执行过程概述 1.概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Opera ...

  9. Hive学习之路 (十八)Hive的Shell操作

    一.Hive的命令行 1.Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. s ...

  10. Hive学习之路 (十一)Hive的5个面试题

    一.求单月访问次数和总访问次数 1.数据说明 数据字段说明 用户名,月份,访问次数 数据格式 A,, A,, B,, A,, B,, A,, A,, A,, B,, B,, A,, A,, B,, B ...

随机推荐

  1. Python:库文件

    可以引用的Python文件:自己写的.py + 外部库(external libraries)

  2. loading 加载工具

    loading 加载工具:http://loading.awesomes.cn/

  3. Codeforces 1159D The minimal unique substring(构造)

    首先我们先观察三个串 10,1110,11101110,答案都是红色部分,我们可以下一个结论,形如 1,1101,111101,那么答案为红色部分.我们可以发现,通过我们末尾添加的1,导致之前红色部分 ...

  4. 简单实现一个textarea自适应高度

    textarea自适应的实现方法很多,原理其实比较简单:监听textarea的input或者键盘事件,获取元素的scrollHeight,重置textarea元素的高度. 预览地址:textarea ...

  5. SQL结构化查询语言

    一.SQL 结构化查询语言 1.T-SQL 和 SQL的关系 T-SQL是SQL的增强版 2.SQL的组成 2.1 DML (数据操作语言) 增加,修改,删除等数据操作 2.2 DCL (数据控制语言 ...

  6. Asp.Net MVC 5使用Identity之简单的注册和登陆

    由于.Net MVC 5登陆和注册方式有很多种,但是Identity方式去实现或许会更简单更容易理解 首先新建一个项目 其次如下选择Empty和MVC的选项 然后打开NuGet包管理器分别安装几个包 ...

  7. 简述vue中v-if和v-show的区别

    vue中的 v-if 和 v-show 二者都可以动态的控制元素的隐藏和显示,但是他们控制的原理是不同的 v-if v-if 控制元素显示或隐藏是把dom元素整个的渲染或者删除,如果删除,也就是页面中 ...

  8. ES6——generator-yield

    yield 既可传参,又可以返回 第一个next()传参无效,只用来启动 如果函数前漏掉 * 就是普通函数 如果有yield会报错, ReferenceError: yield is not defi ...

  9. MyEclipse项目向IDEA项目迁移

    1.首先选择File->New->Project from Existing sources/Project form Version Control,如果项目在你的本地则选择 Proje ...

  10. Linux安装Sqoop及基础使用

    下载Sqoop 官网地址 http://sqoop.apache.org/ wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7 ...