Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

Hive架构

1）用户接口：

　　CLI(hive shell)：命令行工具；启动方式：hive 或者 hive --service cli

　　ThriftServer：通过Thrift对外提供服务，默认端口是10000；启动方式：hive --service hiveserver

　　WEBUI(浏览器访问hive)：通过浏览器访问hive，默认端口是9999；启动方式：hive --service hwi

2）元数据存储（Metastore）：启动方式：hive -service metastore

　　默认存储在自带的数据库derby中，线上使用时一般采用MySQL；

　　元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、列/分区属性、表的类型（是否是外部表）、表的数据所在目录等；

　　database是表(table)的名字空间。默认的数据库是default；

　　table的原数据信息有：列和它们的类型、拥有者(owner)，存储空间和SerDe信息；

　　partition每个分区都有自己的列，存储空间和SerDe信息等

3）驱动器（Driver）：

　　编译器、优化器、执行器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成；

　　生成的查询计划存储在HDFS中，并在随后的MapReduce调用执行；

4）Hadoop

　　用MapReduce计算，用HDFS存储；

　　Hive的数据存储在HDFS之上，包括Database、Table、Partition等；

　　Hive的默认数据仓库是/user/hive/warehouse，可以在hive-site.xml中由hive.metastore.warehouse.dir进行配置；

　　除了外部表外，每个表在数据仓库下都有一个相应的存储目录；

　　当数据被加载到表中时，不会对数据进行任何转换，只是将数据移动到数据仓库中去；

　　非外部表被删除时，表数据和元数据都被删除；外部表被删除时，只删除元数据不删除表数据；

　　分区表的一个Partition对应该表下的一个子目录；

　　每个Bucket对应一个文件

　　大部分的查询由MapReduce计算完成；两种情况不跑MapReduce：select * from xxx和select * from xxx where 分区字段不跑mapreduce

5）hiveserver2

　　启动方式：hive --service hiveserver2

　　HiveServer2是HiveServer的升级版，提供了新的Thrift API处理JDBC/ODBC、Kerberos身份验证、多客户端并发等；

　　HiveServer2提供了新的CLI：BeeLine，是hive0.11后引入的，基于SQLLine，可以作为Hive jdbc client端访问HiveServer2，启动一个Beeline对应一个session；

Hive单机环境部署图

Hive集群环境部署图

注：在生产环境中元数据需要采用主备服务器的方式防止宕机；

Hive运行模式

Hive运行模式即任务的执行环境，分为：本地和集群两种

可以通过mapred.job.tracker来指定，指定方式：

hive> SET mapred.job.tracker=local

不设置默认为集群方式。

Hive与关系型数据库的区别

Hive和关系型数据库并没有什么关系，只是语法类似而已。

	Hive	SQL
数据插入	支持批量导入	支持单条和批量导入
数据更新	不支持（数据导入后就不再支持改变）	支持
索引	支持	支持
分区	支持	支持
执行延迟	高	低
扩展	好	有限

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别的更多相关文章

SaaS系列介绍之十三: SaaS系统体系架构
1 系统体系架构设计软件开发中系统体系架构决定了一个系统稳定性.健壮性.可扩展性.兼容性和可用性,它是系统的灵魂.体系架构是架构师所关注的核心.良好的体系架构是系统成功的开端,否则,再好的代码与设计 ...
Hive基础（2）---（启动HiveServer2）Hive严格模式
启动方式 1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 ...
Hive性能优化【核心思想、运行模式、并行计算】
一.核心思想把HQL当做MapReduce程序去优化. 注意,以下SQL不会转为MapReduce执行: 1.select仅查询本表字段. 2.where仅对本表字段做条件过滤. 二.启动Hive ...
Hive的连接和运行模式
原文链接: https://www.toutiao.com/i6771018203687551495/ Hive的连接启动hadoop的时候将history也启动,如果出问题,可以方便我们后续定位 ...
hive的体系架构及安装
1,什么是Hive? Hive是能够用类SQL的方式操作HDFS里面数据一个数据仓库的框架,这个类SQL我们称之为HQL(Hive Query Language) 2,什么是数据仓库? 存放数据的地方 ...
（cdh）hive 基础知识名词详解及架构
过程启动 hive 之后出现的 CLI 是查询任务的入口,CLI 提交任务给 Driver Driver 接收到任务后调用 Compiler,Executor,Optimizer 将 SQL 语句转 ...
Hive基础讲解
一.Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的.马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而had ...
[转帖]Hive基础（一）
Hive基础(一) 2018-12-19 15:35:03 人间怪物阅读数 234 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接 ...
Hadoop优势，组成的相关架构，大数据生态体系下的模式
Hadoop优势,组成的相关架构,大数据生态体系下的模式一.Hadoop的优势二.Hadoop的组成 2.1 HDFS架构 2.2 Yarn架构 2.3 MapReduce架构三.大数据生态体系 ...

随机推荐

linux rinetd、socat端口转发部署（很实用的网络工具）
端口转发映射的程序叫rinetd,下载地址,直接manke编译安装即可. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 [root@PortForward02 src] ...
OC基础:属性.点语法.KVC 分类： ios学习 OC 2015-06-24 17:24 61人阅读评论(0) 收藏
属性:快速生成setter和getter 属性也包括:声明和实现 1.属性的声明写在.h中格式:@property 数据类型变量名; 如果实例变量一致的时候,属性的声明可以合并,每一个属性之间使用 ...
温度传感器的AD值，电压和电阻的计算方法
V是输入的电压,VCC是标准电压,R为固定电阻,NTC为热敏电阻.计算公式是V=(NTC/(NTC+R))*VCC电压或电阻转化AD的计算方式为AD=(V/VCC)*2^n=(NTC/(NTC+R)) ...
只需 5 秒钟，你就能取到 WPF 程序的超高分辨率超高清截图
我想要截取一个 WPF 程序的图标,但是它太小了.如果我就这样截屏截下来,是很不高清的.由于我需要制作一份课件,所以我需要超高清版本,可是,如何做才能最快速拿到 WPF 程序的超高清截图呢? 本文分享 ...
centos重启redis后，数据丢失
编辑/etc/sysctl.conf ,改vm.overcommit_memory=1, 然后sysctl -p 使配置文件生效 T
解决安装vmware-tools出现的“The path "" is not a valid path to the 3.2.0-4-amd64 kernel headers”问题
在用虚拟机安装使用64位Crunchbang(一种Debian GNU/Linux 的linux)的过程中出现很多小问题.其中vmware-tools安装就是第一个问题. 在使用终端安装vmware- ...
leetcode:Maximum Depth of Binary Tree【Python版】
# Definition for a binary tree node # class TreeNode: # def __init__(self, x): # self.val = x # self ...
Java使用Unsafe接口操作数组Demo
public class unSafeArrayDemo { private static final sun.misc.Unsafe UNSAFE; private static final lon ...
telinit:Did not receive a reply.Possible causes include:the remote application did not send a reply, the message bus security policy blocked the reply, the reply timeout expired
问题: Enabling /etc/fstab swaps: [ok]telinit:Did not receive a reply.Possible causes include:the remot ...
Apache Spark 内存管理详解
在spark里面,内存管理有两块组成,一部分是JVM的堆内内存(on-heap memory),这部分内存是通过spark dirver参数executor-memory以及spark.executo ...

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别的更多相关文章

随机推荐

热门专题