大数据的仓库Hive学习

10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接

我们接着之前学习的大数据来学习。之前说到了NoSql的HBase数据库以及Hadoop中的HDFS存储系统，可是我们发现这跟我们平时常用的关系型数据库有很大区别，为了使用方便，产生了针对大数据存储的数据仓库Hive。

一、是什么

1、概念

Hive 是一个基于 Hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL （类 SQL ）语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进行解析和转换，最终生成一系列基于 hadoop 的 map/reduce 任务，通过执行这些任务完成数据处理。

2、体系结构

hiveserver

hiveserver启动方式：hive –service hiveserver
HiveServer支持多种连接方式：Thrift、JDBC、ODBC

metastore

metastore用来存储hive的元数据信息(表格、数据库定义等)，默认情况下是和hive绑定的，部署在同一个JVM中，将元数据存储到Derby中
这种方式不好的一点是没有办法为一个Hive开启多个实例(Derby在多个服务实例之间没有办法共享)

Hive提供了增强配置，可将数据库替换成MySql等关系数据库，将存储数据独立出来在多个服务实例之间共享

甚至还可以将metastore Service也独立出来，部署到其他JVM中去，在通过远程调用的方式去访问

3、优缺点

优点

可扩展

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务

延展性

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

容错

良好的容错性，节点出现问题SQL仍可完成执行

缺点

不支持记录级别的更新、插入和删除操作

Hive不是一个完整的数据库。Hadoop以及hdfs的设计本身约束和局限性地限制了hive所能胜任的工作。Hive不支持记录级别的更新、插入和删除操作。但是用户可以通过查询生成新表或者将查询结果导入到文件中。

查询延时比较严重

因为Hadoop是一个面向批处理的系统，而mapreduce任务（job）的启动过程需要消耗较长的时间，所以hive查询延时比较严重。传统数据库中在秒级可以完成的查询，在hive中，即时数据集相对较小，往往也需要执行更长的时间。
由于Hadoop本身的时间开销很大，并且Hadoop所被设计用来处理的数据规模非常大，因此提交查询和返回结果是可能具有非常大的延时的，所以hive并不能满足OLAP的“联机”部分，至少目前并没有满足。如果用户需要对大规模数据使用OLTP功能的话，那么应该选择使用一个NOSQL数据库。例如，和Hadoop结合使用的HBase及Cassandra.

不支持事务

二、相关联系

1、与HBase的关系

Hive是基于Hadoop的一个数据仓库工具，是为简化编写MapReduce程序而生的，Hive十分适合数据仓库的统计分析。
HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。

2、与RDBMS的关系

总结：

今天我们通过对Hive的学习，对大数据的处理又有了一定的认识。在以后的实际操作中，我们去慢慢掌握Hive的使用方法。通过不断学习，达到自己所追求的目标。

hive学习的更多相关文章

Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...
Hive学习之六《Hive进阶— —hive jdbc》详解
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc ...
Hive学习路线图--张丹老师
前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作 ...
Hive学习系列博客
原 Hive作业优化原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习五--日志案例分析原 Hive学习三原 Hive学习二原 Hive学习一博客来源,https://blo ...
hive学习路线
hive学习路线图:
Hive学习之修改表、分区、列
Hive学习之修改表.分区.列 https://blog.csdn.net/skywalker_only/article/details/30224309 https://www.cnblogs.co ...
[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
Hive学习目录
大数据之Hive学习目录第 1 章 Hive入门 1.1 什么是Hive 1.2 Hive的优缺点 1.2.1 优点 1.2.2 缺点 1.3 *Hive架构原理 1.4 Hive和数据库比较第 ...

随机推荐

centos7 升级内核到最新版本
centos7 从问世以来,官网提供的镜像始终是3.10 版本,该版本最大的一个问题是对硬件驱动(尤其是无线网卡)的支持不是很好,本人亲测>5种机型,无线网卡均无法正常使用,如果是非主流机型,手 ...
SQL与Mongodb聚合的对应关系(举例说明)
SQL中的聚合函数和Mongodb中的管道相互对应的关系: WHERE $match GROUP BY $group HAVING $match SELECT $project ORDER BY $s ...
解决ora-00054 Oracle锁表问题
1.运行sql: select session_id from v$locked_object; 查出锁表的session,可能很多,正常是没有的 2.SELECT sid, serial#, u ...
有关Fragment的知识点
关于判断Fragment是否可见,可以尝试参考使用Fragment中的两个方法: final boolean isHidden() Return true if the fragment has be ...
angular遇到问题
一.一个js中只有一个angunlar.module,但可以有多个controller,从而控制多个不同的作用域,每个作用域都有独立的$scope.不同作用域之间又有$rootScope这个桥梁二. ...
商业信息管理系统 Bizagi 建模pattern
WCP 1- Sequence This pattern is used to model dependencies between tasks so that one task cannot sta ...
div跟随页面滚动
$(document).ready(function(){ var timer; $(window).scroll(function (){ clearInterval(timer); var top ...
如何刷新DNS缓存
经常换空间的朋友一定知道,域名解析到新空间后,要一段时间才会生效到新空间,这是由于本地的DNS生效不及时导致的.这里青互联教大家一个即时更新本地DNS的方法. 在不同的系统中刷新DNS缓存的方法如下. ...
html/css 浮动练习之井字形布局
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
Mongodb 副本集分片（一）---初始化mongodb安装启动
写在前面:mongodb是nosql非关系型数据库中,比较受欢迎的产品.在数据持久化及与关系型数据库的关联上也做的比较好,目前各大公司在存放二进制文件(图片.视频等)中应用也比较广泛.其遵循的key- ...

hive学习

大数据的仓库Hive学习

一、是什么

1、概念

2、体系结构

3、优缺点

二、相关联系

1、与HBase的关系

2、与RDBMS的关系

总结：

1、Hive定义

2、Hive与HBase关系

3、Hive与RDBMS的关系

4、数据库与数据仓库的区别

hive学习的更多相关文章

随机推荐

热门专题