Hive鲜为人知的宝石-Hooks
本来想祝大家节日快乐,哎,无奈浪尖还在写文章。谴责一下,那些今天不学习的人。对于今天入星球的人,今天调低了一点价格。减少了20大洋。机不可失失不再来。点击阅读原文或者扫底部二维码。
hive概述
Hive为Hadoop提供了一个SQL接口。 Hive可以被认为是一种编译器,它将SQL(严格来说,Hive查询语言 - HQL,SQL的一种变体)转换为一组Mapreduce / Tez / Spark作业。 因此,Hive非常有助于非程序员使用Hadoop基础架构。 原来,Hive只有一个引擎,即MapReduce。 但是在最新版本中,Hive还支持Spark和Tez作为执行引擎。 这使得Hive成为探索性数据分析的绝佳工具。
基于mapreduce的hive,整个架构图如下:
driver - 接收查询的组件。 该组件实现了会话句柄的概念,并提供了在JDBC /
ODBC接口上的执行和获取数据的api模型。
编译器 -
解析查询的组件,对不同的查询块和查询表达式进行语义分析,最终通过从metastore获取表和分区的信息生成执行计划。
Metastore -
存储仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息,读取和写入数据所需的序列化程序和反序列化程序以及存储数据的相应HDFS文件。
执行引擎 - 执行编译器创建的执行计划的组件。 该计划是一个stages的DAG。
执行引擎管理计划的这些不同阶段之间的依赖关系,并在适当的系统组件上执行这些阶段。
什么是hook
通常,Hook是一种在处理过程中拦截事件,消息或函数调用的机制。 Hive
hooks是绑定到了Hive内部的工作机制,无需重新编译Hive。从这个意义上讲,提供了使用hive扩展和集成外部功能的能力。换句话说,Hive
hadoop可用于在查询处理的各个步骤中运行/注入一些代码。根据钩子的类型,它可以在查询处理期间的不同点调用:
Pre-execution
hooks-在执行引擎执行查询之前,将调用Pre-execution
hooks。请注意,这个目的是此时已经为Hive准备了一个优化的查询计划。
Post-execution hooks
-在查询执行完成之后以及将结果返回给用户之前,将调用Post-execution hooks?。
Failure-execution hooks
-当查询执行失败时,将调用Failure-execution hooks?。
Pre-driver-run 和post-driver-run
hooks-在driver执行查询之前和之后调用Pre-driver-run 和post-driver-run hooks。
Pre-semantic-analyzer 和 Post-semantic-analyzer
hooks-在Hive在查询字符串上运行语义分析器之前和之后调用Pre-semantic-analyzer 和Post-semantic-analyzer
hooks。
hive查询的生命周期
hive查询在hive中的执行过程。
Hive Hook API
Hive支持许多不同类型的Hook。
Hook接口是Hive中所有Hook的父接口。它是一个空接口,并通过以下特定hook的接口进行了扩展:
1.
PreExecute和PostExecute将Hook接口扩展到Pre和Post执行hook。
2.?ExecuteWithHookContext扩展Hook接口以将HookContext传递给hook。HookContext包含了hook可以使用的所有信息。
HookContext被传递给名称中包含“WithContext”的所有钩子。
3.?HiveDriverRunHook扩展了Hook接口,在driver阶段运行,允许在Hive中自定义逻辑处理命令。
4.?HiveSemanticAnalyzerHook扩展了Hook接口,允许插入自定义逻辑以进行查询的语义分析。它具有preAnalyze()和postAnalyze()方法,这些方法在Hive执行自己的语义分析之前和之后执行。
5.?HiveSessionHook扩展了Hook接口以提供会话级hook。在启动新会话时调用hook。用hive.server2.session.hook配置它。
6.?Hive
1.1添加了Query Redactor
Hooks。它是一个抽象类,它实现了Hook接口,可以在将查询放入job.xml之前删除有关查询的敏感信息。可以通过设置hive.exec.query.redactor.hooks属性来配置此hook。
栗子搞起
hive源码中实现了一些hook,具体有以下几个例子:
1.driverTestHook是一个非常简单的HiveDriverRunHook,它打印你用于输出的命令。
2.?PreExecutePrinter和PostExecutePrinter是pre
和 post hook的示例,它将参数打印到输出。
3.?ATSHook是一个ExecuteWithHookContext,它将查询和计划信息推送到YARN
timeline server。
4.?EnforceReadOnlyTables是一个ExecuteWithHookContext,用于阻止修改只读表。
5.?LineageLogger是一个ExecuteWithHookContext,它将查询的血统信息记录到日志文件中。
LineageInfo包含有关query血统的所有信息。
6.?PostExecOrcFileDump是一个post=Execution
hook,用于打印ORC文件信息。
7. PostExecTezSummaryPrinter是一个post-execution
hook,可以打印Tez计数器的摘要。
8. UpdateInputAccessTimeHook是一个pre-execution
hook,雅思报名费可在运行查询之前更新所有输入表的访问时间。
栗子
下面写一个简单的?pre-execution
hook,会在执行的时候输出Hello
from the hook !!。
1.
创建一个工程。
?
?4.0.0
? ?hive-hook-example
? ?Hive-hook-example
? ?1.0
2. 添加hive-exec依赖。
hook的主要依赖就是hive-exec包。
?
? ? ?
? ? ? ? ? ?org.apache.hive
? ? ? ? ? ?hive-exec
? ? ? ? ?
?1.1.0
? ? ? ?
? ?
3.创建一个实现类。
该类要继承自
org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext
该接口只有一个方法。
;
我们的实现仅仅是输出一个字符串。
System.out.();
完整的例子如下:
org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext;
org.apache.hadoop.hive.ql.hooks.HookContext;
{
?
?{
? ? ? ?System.out.println();
? ?}
}
4. 打包使用
?打包
mvn
使用
the Hive terminal issue the commands. Note that you have
jar
target/Hive-hook-example.jar;
hive.exec.pre.hooks=HiveExampleHook;
更多hivehook例子,请参考hive源码,路径:
/
后面,浪尖给出hive的hook在安全控制和metastore监控的hook案例。
[完]
推荐阅读:
重要 | mr使用hcatalog读写hive表
必读|spark的重分区及排序
文章来源:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81844217
Hive鲜为人知的宝石-Hooks的更多相关文章
- Hive Query生命周期 —— 钩子(Hook)函数篇
无论你通过哪种方式连接Hive(如Hive Cli.HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析.编译.优化器处理.执行器执行四个方面. 以Hive目前 ...
- hive-site.xml 参数设置
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="confi ...
- troubleshooting-Container 'PHYSICAL' memory limit
原因分析 CDH 集群环境没有对 Container分配足够的运行环境(内存) 解决办法 需要修改的配置文件,将具体的配置项修改匹配集群环境资源.如下: 配置文件 配置设置 解释 计算值(参考) ya ...
- hive_学习_01_hive环境搭建(单机)
一.前言 本文承接上一篇:hbase_学习_01_HBase环境搭建(单机),主要是搭建 hive 的单机环境 二.环境准备 1.说明 hive 的下载来源有: 官方版本:http://archive ...
- Hive Hooks介绍
Hive作为SQL on Hadoop最稳定.应用最广泛的查询引擎被大家所熟知.但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等.值得关注的是Hive目前 ...
- 【转】Hive配置文件中配置项的含义详解(收藏版)
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1 ...
- [Hive - LanguageManual] Alter Table/Partition/Column
Alter Table/Partition/Column Alter Table Rename Table Alter Table Properties Alter Table Comment Add ...
- hive集成sentry
1.安装配置sentry 详细步骤见上一篇安装配置sentry 2.配置hive 2.1 Hive-server2集成Sentry 在 /etc/hive/conf/hive-site.xml中添加: ...
- Hive metastore整体代码分析及详解
从上一篇对Hive metastore表结构的简要分析中,我再根据数据设计的实体对象,再进行整个代码结构的总结.那么我们先打开metadata的目录,其目录结构: 可以看到,整个hivemeta的目录 ...
随机推荐
- Maven是什么,如何使用Maven
一.简单的小问题? 1.1.假如你正在Eclipse下开发两个Java项目,姑且把它们称为A.B,其中A项目中的一些功能依赖于B项目中的某些类,那么如何维系这种依赖关系的呢? 很简单,这不就是跟我们之 ...
- ubuntu18.04窗口截图和选区截图快捷键
解决方法: 1.点击左下角的系统设置. 2.点击设备. 3.点击键盘,可查看各种截图操作的快捷键. PS:双击图中的快捷键可以设置新的快捷键.
- Solr查询和过滤器执行顺序剖析
一.简介 Solr的搜索主要由两个操作组成:找到与请求参数相匹配的文档:对这些文档进行排序,返回最相关的匹配文档.默认情况下,文档根据相关度进行排序.这意味着,找到匹配的文档集之后,需要另一个操作来计 ...
- 004-for循环输出
<?php for ($counter = 1; $counter <= 6; $counter++) //循环6次 { print("<B>counter is $ ...
- 洛谷题解P1047 校门外的树
题目描述 某校大门外长度为L的马路上有一排树,每两棵相邻的树之间的间隔都是1米.我们可以把马路看成一个数轴,马路的一端在数轴0的位置,另一端在L的位置:数轴上的每个整数点,即0,1,2,…,L,都种有 ...
- synchronized原理及优化,(自旋锁,锁消除,锁粗化,偏向锁,轻量级锁)
偏向锁:不占用CPU自旋锁:占用CPU.代码执行成本比较低且线程数少时,可以使用 .不经过OS.内核态,效率偏低 理解Java对象头与Monitor 在JVM中,对象在内存中的布局分为三块区域:对象头 ...
- 实验吧-杂项-pilot-logic、ROT-13变身了
1.pilot-logic 题上说password藏在文件里,直接丢到Winhex里,搜索pass就拿到flag了. 有的大佬提供了另一种方法,题上说是一个磁盘文件,有一个处理磁盘文件的软件autop ...
- 谈谈对MapTask任务分配和Shuffle的理解
一.切片与MapTask的关系 1.概述 大家要注意区分切片与切块的区别: 切块Block是HDFS物理上把数据分成一块一块的,默认是128M: 数据切片:只是在逻辑上对输入进行分片,并不会在磁盘上分 ...
- P1052 卖个萌
P1052 卖个萌 转跳点:
- Gym 101158D(暴力)
题意:给定两个长度为N的字符串,1<=N<=4000,求满足字符串1中的某个区间所有的字母种类和个数都与字符串2中的某个区间相同最长的区间长度. 分析: 1.预处理每个串字母个数的前缀和. ...