Hive架构及Hive On Spark

Hive的所有数据都存在HDFS中.

(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。

(2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition都有一个对应的目录，查询的时候可以减少数据的规模。

(3)Bucket(桶):即使将数据分区后，每个分区的规模可能依旧会很大，可以根据关键字的Hash结果将数据分成多个Bucket,每个Bucket对应一个文件。

HvieQL支持类似于SQL的查询语言，大体可分为以下几种类型.

DDL：类似于创建数据库(create database)，创建表(create table)，删除表(drop table)等.

DML:对于数据的查询(select)或添加(insert into overwrite)。

UDF:自定义查询函数。

Hive的整体架构图如下:

Hive拥有自己的语法树解析(Parser)、语义分析(Semantic Analyser)、以及查询优化器(Optimizer)，最终以MapReduce的形式生成Job,交给Hadoop进行执行。项目开发中，由于Spark的Catalyst解析还太过简陋，一般声明对象时，还是用HiveContext.下面举个简单的例子:

import hiveContext._

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext("create table yangsy (key int, value String)"

//将本地目录下的文件加载到HDFS的HIVE表中

sqlContext("load data local inpath '/home/coc/XXX.csv' into table yangsy")

//查询

sqlContext("From yangsy select key,value").collect().foreach(println)

sqlContext("drop table yangsy")

其实collect()函数已经过时。。。。但是为了触发action操作，就必须用,cache()函数只将运算后的数据存入内存，然而并没有什么卵用，因为它是transformation操作。

Spark对HiveQL所做的优化主要体现在Query相关的操作，其他的依旧使用Hive的原生执行引擎。在logicalPlan到physicalPlan的转换过程中，toRDD是最关键的。源码如下:

override lazy val toRdd:RDD[Row] =

analyzed match{

    case NativeCommand(cmd) =>

    val output = runSqlHive(cmd)

    if(output.size == 0){

    emptyResult

    }else{

    val asRows = output.map(r => new GenericRow(r.split("\t".asInstanceOf[Array[Any]]))

    sparkContext.parallelize(asRows,1)

    }

    case _ =>

    executedPlan.execute().map(_.copy())

    }

在Hive解析过程中增加了两个规则,分别是HiveTypeCoercion和PreInsertionCasts,其中要注意Catalog的用途，它是HiveMetastoreCatalog的实例。

HiveMetastoreCatalog是Spark中对Hive Metastore访问的wrapper.HiveMetastoreCatalog通过调用相应的Hive API可以获得数据库中的表及表的分区，也可创建表。它会通过Hive client来访问MetaStore的元数据。流程如下所示:

Hive: hiveql -> queryExecutor ->HiveMetastoreCatalog ->MetaStore

SparkSQL: hiveql -> queryExecutor (toRDD)-> Spark RDDS -> HiveMetastoreCatalog ->MetaStore

Hive架构及Hive On Spark的更多相关文章

037 对于HIVE架构的理解
0.发展在hive公布源代码之后公司又公布了presto,这个比较快,是基于内存的. impala:3s处理1PB数据. 1.Hive 能做什么,与 MapReduce 相比优势在哪里关于hi ...
hive学习（一）hive架构及hive3.1.1三种方式部署安装
1.hive简介 logo 是一个身体像蜜蜂,头是大象的家伙,相当可爱. Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便 ...
Hive架构原理
什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层计算引 ...
Hive(十三)【Hive on Spark 部署搭建】
Hive on Spark 官网详情:https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started ...
对于HIVE架构的理解
1.Hive 能做什么,与 MapReduce 相比优势在哪里关于hive这个工具,hive学习成本低,入手快,对于熟悉sql语法的人来说,操作简单,熟悉. 2.为什么说 Hive 是 Hadoo ...
Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别
Hive架构 1)用户接口: CLI(hive shell):命令行工具:启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端 ...
Hive之 hive架构
Hive架构图主要分为以下几个部分: 用户接口,包括命令行CLI,Client,Web界面WUI,JDBC/ODBC接口等中间件:包括thrift接口和JDBC/ODBC的服务端,用于整合Hiv ...
Hive架构
Hive组织数据包含四种层次:DataBase --> Table --> Partition --> Bucket,对应在HDFS上都是文件夹形式. 数据库和数据仓库的区别: 1) ...
达观数据分析平台架构和Hive实践——TODO
转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对 ...

随机推荐

Apache的虚拟主机配置
使用虚拟主机要先取消中心主机,注释掉DocumentRoot #DocumentRoot "/www/htdoc" 虚拟主机的单独配置: 用户认证访问日志错误日志别名脚本别 ...
scala言语基础学习九
模式匹配 case _ =>不能放在函数的中间必须放在最后,否则scala会编译不通过在case 里面使用if守卫在模式匹配中获取输入的数据(在匹配不到的情况下) 对类型进行匹配 case ...
Python Tornado
按照http://www.tornadoweb.cn/所提供的方法下载安装后编写如下程序: import tornado.ioloop import tornado.web class MainHan ...
Linux驱动设计—— 中断与时钟@request_irq参数详解
request_irq函数定义 /*include <linux/interrupt.h>*/ int request_irq(unsigned int irq, irq_handler_ ...
shell下的作业管理[转]
作业管理举例来说,我们在登陆 bash 后, 想要一边复制文件.一边进行数据搜寻.一边进行编译,还可以一边进行 vi 程序撰写! 当然我们可以重复登陆那六个文字介面的终端机环境中,不过,能不能在一个 ...
error LNK2026: 模块对于 SAFESEH 映像是不安全的
解决方法: 1.打开该项目的“属性页”对话框. 2.单击“链接器”文件夹. 3.单击“命令行”属性页. 4.将 /SAFESEH:NO 键入“附加选项”框中,然后点击应用.
Android调用系统分享功能以及createChooser的使用
工程结构 //效果图点击测试分享 ...
spring 初始化时注入bean实现listener的方法
两种方法: 1.实现ApplicationListener<ContextRefreshedEvent>的onApplicationEvent(ContextRefreshedEvent ...
easyUI之message
message组件,依赖于window组件.progressbar组件两个面板. 它有几个不同的显示风格,与vb中的msgbox相对应,有alert.progrss.confirm.prompt等形式 ...
Openjudge计算概论-单词翻转
/*===================================== 单词翻转总时间限制: 1000ms 内存限制: 65536kB 描述输入一个句子(一行),将句子中的每一个单词翻转后 ...

Hive架构及Hive On Spark

Hive架构及Hive On Spark的更多相关文章

随机推荐

热门专题