SparkSQL & Spark on Hive & Hive on Spark

刚开始接触Spark被Hive在Spark中的作用搞得云里雾里，这里简要介绍下，备忘。

参考：https://blog.csdn.net/zuochang_liu/article/details/82292076

SparkSQL：是一个完全不依赖Hive的SQL引擎。

Spark On Hive

通过sparksql，加载hive的配置文件，获取到hive的元数据信息；spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据；接下来就可以通过spark sql来操作hive表中的数据。也就是说仅仅是将Hive作为一个数据仓库，并没有用到Hive的SQL执行引擎的能力。代码在内核代码spark-hive_2.11工程中。

Hive On Spark

是把hive查询从mapreduce 的mr (hadoop 计算引擎)操作替换为spark rdd 操作；将HQL翻译成分布式可以执行的Spark程序。Hive和SparkSQL都不负责计算。也就是一个为Spark计算框架定制的Hive。和Hive基本上没有关系，耦合之处为：HQL、元数据库、UDF、序列化、反序列化机制。它是一个单独的工程，和Spark内核代码独立，但是Spark依赖于Hive On Spark， Spark中的某些模块执行过程中会调用Hive on Spark. 例如Spark JDBCServer：

Hive原来的计算模型是MR，频繁操作磁盘（将中间结果写入到HDFS中）效率低。而Hive On Spark中使用了RDD（Dataframe）,然后运行在spark集群上面。元数据保存在mysql中，其中包含了hive表的描述信息，描述了那些数据库、表，以及表有多少列，每一列都是什么类型，还要描述表的数据保存在HDFS的什么位置。

Hive元数据库的功能

　　hive的元数据（metadata）建立了一种映射关系，执行HQL是，先到Mysql元数据库中查找描述信息，然后根据描述信息生成任务，然后将任务下发到spark集群中执行。hive on spark使用的仅仅是hive的标准和规范，不需要有hive数据库一样可以使用。要使用Hive的标准需要将hive的配置文件放在spark的conf目录下。没有安装Hive组件也没有影响。

要在Spark-Submit进程中使用开启spark对hive的支持：

val session = SparkSession.builder()

  .master("local")

  .appName("xx")

  .enableHiveSupport()

  .getOrCreate()

SparkSQL & Spark on Hive & Hive on Spark的更多相关文章

spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Spark SQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一.关于Spark 简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题 ...
Hive on Spark和Spark sql on Hive，你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
[Spark][Hive]Hive的命令行客户端启动：
[Spark][Hive]Hive的命令行客户端启动: [training@localhost Desktop]$ chkconfig | grep hive hive-metastore 0:off ...

随机推荐

NIVIDIA Tegra K1 QWT安装使用问题和解决办法
在Linux系统下,Tegra K1(ARM体系),只有QtCreator的环境下,去安装Qwt6.1.0: 下载: 系统安装好之后,直接联网在系统自带的软件安装程序中搜索Qt,安装Qt5.2.1,之 ...
Linux下diff命令用法详解
大家好,我是良许. 我们在平时工作的时候,经常要知道两个文件之间,以及同个文件不同版本之间有何异同点.在 Windows 下,有 beyond compare 这个好用的工具,而在 Linux 下,也 ...
day12 文件操作（下）
目录一.x模式(控制文件操作模式,与rwa同级) 1 特点 2 格式二.b模式(控制文件读写内容的模式,与t同级) 1.b模式和t模式的区别 2 b模式应用 3 循环读取文件三.文件操作的其他方 ...
picker-view、微信小程序自定义时间选择器（非官方）
picker-view自定义时间选择器官网的自定义时间选择器比较简陋.日期不准下面是我自己写的一个demo <view class="baseList"> < ...
渐进式Web应用（PWA）
什么是渐进式Web应用? 渐进式Web应用是一种全新的Web技术,让Web应用和原生APP的体验相近或一致. 渐进式Web应用它可以横跨Web技术及Native APP开发的解决方案,对于开发者的优势 ...
Ripple 20：Treck TCP/IP协议漏洞技术分析
本文由“合天智汇”公众号首发,作者:b1ngo Ripple 20:Treck TCP/IP协议漏洞技术分析 Ripple20是一系列影响数亿台设备的0day(19个),是JSOF研究实验室在Trec ...
bzoj3436小K的农场
bzoj3436小K的农场题意: n个数,知道m条关系:a-b≥c.a-b≤c或a==b.问是否存在满足所有关系的情况.n≤10000,m≤10000. 题解: 差分约束.因为只要求是否满足,因此最 ...
小白从零开始阿里云部署react项目+node服务接口（三：部署到服务器）
服务器准备工具依次安装即可 nginx 安装nginx https://www.runoob.com/linux/nginx-install-setup.html 配置全局nginx命令 http ...
Cyber Security - Palo Alto Firewall Security Zones
Firewall Security Zones Zones: The foundational aspect of every Firewall. Police network traffic Enf ...
手把手带你玩转 DialogFragment
前言本文已经收录到我的 Github 个人博客,欢迎大佬们光临寒舍: 我的 GIthub 博客思维导图一.为什么要学习 DialogFragment 你还在用 Dialog 吗? 你还在经常烦恼 ...

SparkSQL & Spark on Hive & Hive on Spark

SparkSQL & Spark on Hive & Hive on Spark的更多相关文章

随机推荐

热门专题