HIVE教程
完整PDF下载:《HIVE简明教程》
前言
Hive是对于数据仓库进行管理和分析的工具。但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西。
但是Hive和SQL毕竟不同,执行原理、优化方法,底层架构都完全不相同。
大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本《Hive编程指南》,对于不懂技术的数据分析人员来说,这本书有些繁琐和深奥;对于Hive技术人员来说,这本书对于原理和细节描述的又显得浅显和不足。
基于工作中的Hive使用情况,我整理了这个实用性的教程,这个教程分为三个部分:Hive基本使用、Hive执行原理与优化、Hive高级知识。由浅入深地简单介绍Hive技术。
第一部分:完全以日常使用为目标,整理了常用的Hive语法,而抛弃了不常用的部分,用来满足不懂技术的分析人员来快速使用Hive进行常见的日常数据分析。
第二部分:如果想能写出高效的Hive语句,必须要先了解Hive执行原理,然后掌握一系列的优化方法。所以第二部分主要内容是Hive原理与优化。
第三部分:讲解Hive的一系列技术细节,以满足技术人员想了解技术细节的要求,为能更加高效和灵活地使用Hive提供技术基础。
三个部分的详细说明:
|
模块 |
主要内容 |
预期目标 |
面对人群 |
|
Hive基本使用 |
Hive概念、常用语法、内置函数、自定义函数 |
可以使用Hive做常见的大数据分析工作 |
能统计出数即可的分析人员 |
|
Hive执行原理与优化 |
Hive技术架构、执行原理、优化方法 |
了解Hive执行原理,可以写出性能比较好的Hive程序 |
对性能有要求的分析人员 |
|
Hive高级知识 |
Hive技术细节 |
了解Hive技术细节 |
对Hive原理感兴趣的人员 |
参考资料:
1、Hive编程指南》 Eduard Capriolo、Dean Wampler、Jason Rutberglen 著 曹坤 译
2、Hive官方文档:https://cwiki.apache.org/confluence/display/Hive/GettingStarted
3、互联网上其他资源
第一部分:Hive基本使用
一、 Hive简介
1、 定义
2、 Hive的几个特点
3、 Hive使用
二、 Hive中的基本数据类型
三、 Hive DDL 数据定义语法
1、 创建数据库
2、 查看数据库定义
3、 查看数据库列表
4、 删除数据库
5、 切换当前数据库
6、 创建普通表
7、 创建分区表
8、 创建桶表
9、 查看有哪些表
10、 查看表定义
11、 修改表
12、 删除表
四、 Hive DML 数据管理语法
1、 向Hive中加载数据
2、 导出数据
3、 插入数据
4、 复制表
5、 克隆表
6、 备份表
7、 还原表
五、 Hive QL 数据查询语法
1、 Select 查询
2、 Where筛选
3、 Group By 分组
4、 子查询
六、 Join
1、 Hive Join的限制
2、 Inner join
3、 Left join
4、 Right join
5、 Full join
6、 Left Semi-Join ( exists 语句)
七、 排序
1、 Order By
2、 Sort By
3、 Distribute By 和 Sort By
4、 Cluster By
5、 常见全局排序需求
八、 Hive内置函数
1、 参考资料
2、 explode函数
3、 collect_set函数
4、 collect_list函数
九、 Hive自定义函数
1、 UDF用户自定义函数(一进一出)
2、 UDAF用户自定义聚合函数(多进一出)
3、 UDTF自定义表生成函数(一进多出)
第二部分:Hive执行原理与优化
十、 Hive技术架构
1、 架构图
2、 Hive的核心
3、 Hive的底层存储
4、 Hive程序的执行过程
5、 Hive的元数据存储
6、 Hive客户端
十一、 MapReduce执行过程
十二、 Shuffle原理
1、 Map Shuffle过程
2、 Reduce Shuffle过程
十三、 性能瓶颈和优化
十四、 HiveQL层面优化
1、 利用分区表优化
2、 利用桶表优化
3、 join优化
4、 启用mapjoin
5、 桶表mapjoin
6、 Group By数据倾斜优化
7、 Order By优化
8、 Group By Map端聚合
9、 一次读取多次插入
10、 Join字段显示类型转换
11、 使用orc、parquet等列式存储格式
十五、 Hive架构层面优化
1、 不执行MapReduce
2、 本地模式执行MapReduce
3、 JVM重用
4、 并行化
十六、 Hive底层MapReduce优化
1、 合理设置Map数
2、 合理设置reduce数
第三部分:Hive高级知识
十七、 Hive文件格式
1、 常见文件格式
2、 列式存储
十八、 Hive压缩方法
1、 压缩的原因
2、 Hadoop常用压缩方法
3、 配置Hadoop压缩解压
4、 Hive中的压缩
十九、 复杂类型
1、 举例
2、 array类型
3、 map类型
4、 struct类型
5、 union类型
6、 字段分隔符
二十、 Hive SQL转换为MapReduce过程
二十一、 Hive解释器
1、 词法语法解析
2、 生成抽象语法树
二十二、 Hive编译器
二十三、 Hive优化器
二十四、 Hive执行器
附录A : HIVE安装
1、 安装Hive
2、 配置Hive
3、 安装MySQL数据库
4、 在远程MySQL存储模式配置
5、 启动Hadoop
6、 启动Hive
7、 测试hive
HIVE教程的更多相关文章
- Hive 教程(二)-认知hive
在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark.hive.kafka 什么是hive 在大数据领域有 3 种需求场景:传输.存储.计算: hive 是一个处理海量的结构化数 ...
- Hive教程(1)
1. 介绍 Apache Hive可以使用SQL来读,写,管理分布式存储的大数据集,结构可以投射到已经存储的数据上,命令行工具和JDBC驱动可以让用户连接到Hive. 2. 安装和配置 你可以下载Hi ...
- Hive 教程(十)-UDF
hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数 可以分为 3 类 UDF:一进一出 ...
- Hive 教程(九)-python with hive
本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTrans ...
- Hive 教程(八)-hiveserver2
hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 ...
- Hive 教程(七)-DML基础
DML,Hive Data Manipulation Language,数据操作语言: 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等: Loading files into tables ...
- Hive 教程(六)-Hive Cli
hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hiv ...
- Hive 教程(五)-参数配置
配置基本操作 hive> set; 查看所有配置hive> set key: 查看某个配置hive> set key value: 设置某个配置 我们可以看到一些 hadoop 的配 ...
- Hive 教程(四)-分区表与分桶表
在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹 ...
随机推荐
- WPF 有用博客地址
增加智能感知的RichTextBox扩展控件(WPF) WPF自定义控件与样式(3)-TextBox & RichTextBox & PasswordBox样式.水印.Label标签. ...
- [C#] C# 知识回顾 - 异常介绍
异常介绍 我们平时在写程序时,无意中(或技术不够),而导致程序运行时出现意外(或异常),对于这个问题, C# 有专门的异常处理程序. 异常处理所涉及到的关键字有 try.catch 和 finally ...
- OEL上使用yum install oracle-validated 简化主机配置工作
环境:OEL 5.7 + Oracle 10.2.0.5 RAC 如果你正在用OEL(Oracle Enterprise Linux)系统部署Oracle,那么可以使用yum安装oracle-vali ...
- duang~免费的学习视频来啦:学霸君之全栈测试
学霸君向童鞋们推荐一款 同名学霸学习 视频教程 重点是完全免费收看学习噢!!! 今天 学霸君推荐腾讯课堂的学霸君之全栈测试 复制下方链接至腾讯课堂中报名学习 https://ke.qq.com/cou ...
- 项目持续集成环境(jenkins + SVN + maven + tomcat)
整体流程 每次SVN上代码有变动,触发自动构建动作,并部署到服务器的tomcat上,具体流程: 1.SVN上提交代码修改 2.maven执行Goals 3.将web工程打成war包 4.关闭服务器的t ...
- TFS 2015 敏捷开发实践 – 在Kanban上运行一个Sprint
前言:在 上一篇 TFS2015敏捷开发实践 中,我们给大家介绍了TFS2015中看板的基本使用和功能,这一篇中我们来看一个具体的场景,如何使用看板来运行一个sprint.Sprint是Scrum对迭 ...
- 换个角度看微信小程序[推荐]
去年参加几次技术沙龙时,我注意到一个有意思的现象:与之前大家统一接受的换名片不同,有些人并不愿意被添加微信好友--"不好意思,不熟的人不加微信". 这个现象之所以有意思,是因为名片 ...
- js格式化日期
/** *对日期进行格式化, * @param date 要格式化的日期 * @param format 进行格式化的模式字符串 * 支持的模式字母有: * y:年, * M:年中的月份(1-12), ...
- 跨域问题,前端主动向后台发送cookie
跨域是什么? 从一个域名的网页访问另一个域名的资源,就会出现跨域.只要协议.端口.域名有一个不同就会出现跨域 例如: 1.协议不同 http://www.baidu.com:80 和 https:/ ...
- [转载]MVVM模式原理分析及实践
没有找到很好的MVVM模式介绍文章,简单找了一篇,分享一下.MVVM实现了UI\UE设计师(Expression Blend 4设计界面)和软件工程师的合理分工,在SilverLight.WPF.Wi ...