Hive组织数据包含四种层次:DataBase --> Table --> Partition --> Bucket,对应在HDFS上都是文件夹形式。

数据库和数据仓库的区别:

1). 数据库内数据是动态变化的,而数据仓库内数据是静态的,是用来存储数据的(一次写入多次读取)

2). 数据库中的数据结构比较复杂,而数据仓库中数据结构简单

3). 数据库在操作数据时要求响应速度快,即实时的进行增删改查;而数据仓库响应时间比较长

Hive架构

1) 元数据:Metastore

  包括:数据库、表、分区、桶、列等名称,表的类型(是否是外部表)、表数据所在的目录等。

2) 用户接口:Client

  CLI(hive shell)、JDBC/ODBC(java访问hive)、WebUI(浏览器访问hive)

3) 底层操作:HDFS+MR

  使用HDFS进行存储,使用MR进行计算

4) 驱动器:Driver

  • 编译器Compile:首先检查SQL中表和列是否存在,再利用第三方工具Antlr检查SQL语法是否正确,将正确的SQL解析成抽象语法树(AST),最后将AST编译成逻辑执行计划Logical Plan
  • 优化器Optimizor:将逻辑执行计划先进行优化,再转化成可以运行的物理执行计划Physical Plan,即MR任务执行,并对其进行优化
  • 执行器Executor:执行优化后的MR任务

元数据与Hive的对应关系:

  • 【DBS】表对应【数据库】信息。
  • 【TBLS】表对应【数据表】信息。
  • 【COLUMNS_V2】表对应【字段】信息。
  • 【PARTITIONS】表对应【分区表】信息。
  • 【SDS】对应hdfs上【路径】信息:

Hive中【数据库】对应以 .db 结尾的文件夹,【表】对应文件夹,【分区字段】对应着子文件夹,【表中数据】对应数据文件。

hive保存元数据的三种方式

Hive将元数据存储在 RDBMS 中,有三种存储模式,其中1、2均属于本地存储,3属于远程存储。

1、Single User Mode:
  • 使用内置的derby数据库存储元数据信息,不可以并发调用hive。
  • 默认derby数据库问题:①换执行路径后,原来的表不存在了②只能单用户访问同一张表【单线程】。
  • 这是因为derby数据库特点:在那个目录下运行hive,就那个目录下产生一个derby文件和一个metastore_db目录。

2、Multi User Mode:

  通过网络连接到mysql数据库,是最经常使用的组合模式。
3、Remote Server Mode:

  • 在服务器端启动MetaStoreServer服务,客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据库。
  • 客户端重要配置是hive.metastore.urls,用于通过thrift连接metastore,默认 metastore端口是9083。
  • 这种方式要单独启动metastore,命令为hive --service metastore。
  • 通过CLI执行show tables,成功则表示remote server mode配置成功。

Hive架构的更多相关文章

  1. 对于HIVE架构的理解

    1.Hive  能做什么,与 MapReduce 相比优势在哪里 关于hive这个工具,hive学习成本低,入手快,对于熟悉sql语法的人来说,操作简单,熟悉. 2.为什么说 Hive 是 Hadoo ...

  2. 037 对于HIVE架构的理解

    0.发展 在hive公布源代码之后 公司又公布了presto,这个比较快,是基于内存的. impala:3s处理1PB数据. 1.Hive  能做什么,与 MapReduce 相比优势在哪里 关于hi ...

  3. Hive之 hive架构

    Hive架构图 主要分为以下几个部分: 用户接口,包括 命令行CLI,Client,Web界面WUI,JDBC/ODBC接口等 中间件:包括thrift接口和JDBC/ODBC的服务端,用于整合Hiv ...

  4. hive学习(一)hive架构及hive3.1.1三种方式部署安装

    1.hive简介 logo 是一个身体像蜜蜂,头是大象的家伙,相当可爱. Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便 ...

  5. [Hive]Hive架构及常规操作

    Hive架构 如图中所示,Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Had ...

  6. Hive架构原理

    什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射 成一张表,并提供类SQL查询功能,底层计算引 ...

  7. Hive架构及搭建方式

    目录 前言 hive的基础知识 基本架构 metastore 内嵌服务和数据库 内嵌服务 服务和数据库单独部署 hcatalog 客户端 客户端的本地模式 beeline beeline的自动模式 j ...

  8. Hive架构及Hive On Spark

    Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...

  9. Hive架构与工作原理

    组成及作用: 用户接口:ClientCLI(hive shell).JDBC/ODBC(java访问hive).WEBUI(浏览器访问hive) 元数据:Metastore 元数据包括:表名.表所属的 ...

随机推荐

  1. tomcat https 证书生成与配置

    第一步:生成证书 命令行输入: keytool -genkeypair -alias "tomcat" -keyalg "RSA" -keystore &quo ...

  2. JUnit常用断言及注解

    断言是编写测试用例的核心实现方式,即期望值是多少,测试的结果是多少,以此来判断测试是否通过. 断言核心方法   assertArrayEquals(expecteds, actuals) 查看两个数组 ...

  3. HDU_5510_Bazinga

    Bazinga Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Sub ...

  4. 华为交换机忘记console的密码,怎么恢复出厂设置

    第一步:一般情况下由于密码忘记我们会被阻挡在交换机telnet远程管理界面之外. 第二步:虽然可以尝试console线连接交换机的控制接口,但是很多时候这个密码也被网络管理员进行了设置,不巧的是如果这 ...

  5. 【react路由】react 路由被自动加了个#

    路由自动加#是由hashhistory造成: https://segmentfault.com/q/1010000012097148 单页面应用 前端跳转 or 服务器跳转: https://my.o ...

  6. POJ1470Closest Common Ancestors 最近公共祖先LCA 的 离线算法 Tarjan

    该算法的详细解释请戳: http://www.cnblogs.com/Findxiaoxun/p/3428516.html #include<cstdio> #include<alg ...

  7. ovn-architecture 摘要

    OVN架构图如下所示: 1.OVN Southbound Database由以下三种数据构成: Physical Network(PN)table用于确定如何到达hypervisor以及其他node ...

  8. C++继承模型

    在C++继承模型中,一个派生类对象表现出来的东西,是其自己的成员加上其基类成员的总和.但这些成员怎样摆放,标准并未强制规定.一般而言,低地址放基类子对象,高地址放派生类对象. 以下从四个部分讨论C++ ...

  9. Installshield 宏定义控制版本

    定义宏 在Build =>Setting => 以空格为准定义宏 使用宏 在方法里 #if 宏名称 代码 #else 代码 #endif

  10. Uboot mmc命令解析&NAND flash uboot命令详解

    转载:http://blog.csdn.net/simonjay2007/article/details/43198353 一:mmc的命令如下: 1:对mmc读操作 mmc read addr bl ...