Hive的一些学习内容
Hive相关
- 什么是metastore?
- metadata是元数据,包含数据库、表、字段、分区等信息。作用:客户端连接MetaStore服务,metastore再去连接MySQL数据库存储元数据,有了metastore服务可以实现多客户端同时连接MySQL。
- metastore三种配置:内嵌(Derby)、本地元存储、远程元存储
- Hive的元数据默认存储在Derby数据库,建议存储在像MySQL这种关系型数据库中。
- [为什么建议存储在关系型数据库中?]:默认的Derby数据库只能建立一个客户端连接,不能实现多客户端同时访问。不适合生产环境。
- metastore安装方式有什么区别?
- 内嵌:使用自带的Derby数据库存储元数据,不需要额外的MetaStore服务。一次仅能有一个客户端连接,适合实验环境,不适合生产环境
- 本地元存储:本地安装MySQL来存储元数据,hive服务和metastore服务运行在同一个进程中。
- 远程元存储:Hive服务和MetaStore服务在不同的进程中。
- 什么是Managed Table和External Table?
- Hive中有两种类型的表:Managed Table(内部表)和External Table(外部表)
- 内部表:hive的默认表类型,内部表的数据通常存放在/user/root/warehouse下
- 使用describe formatted 表名 来查看是内部表还是外部表
- 删除内部表时,存放在HDFS上的真实数据也一并删除。
- 外部表:适合于在hive之外使用表的数据的情况,删除外部表时,只是删除了元数据,真是数据并没有删除
- 什么时候使用Managed Table和External Table
- 内部表适用于临时创建的中间表
- 外部表数据多部门共享
hive有哪些复合数据类型
Map:key-value
Struct:不同数据类型的集合
Array:同类型元素的集合
UnionType:代表一个可以具有属于所选择的任何数据类型的值的列hive分区有哪些好处
- 加速查询
- 使用分区列的名称来创建子目录,当使用where子句执行查询操作时,只会扫描特定的子目录,而不用扫描全表。还是加速查询
- hive分区和分桶的区别
- 分区:以字段的形式在表结构中存在,使用describe table_name 来查看字段是否存在,但是该字段不存放真实数据,仅仅是分区的表示(伪列)
- 分桶:一种细粒度的数据划分操作。实际生产中使用较少。[采用对列值哈希,然后除以桶的个数求余]
- hive如何动态分区
- 静态分区:加载数据时(显式)指定分区列
- 动态分区:将数据推送到Hive,Hive决定哪个值进入哪个分区。需要启动动态分区[hive.exec.dynamic.parition.mode=nostrict]
- map join优化手段
- Join时大表放在后面[执行join时,需要选择哪个表被流式传输,哪个表被缓存。Hive将Join语句中最后一个表用于流式传输,所以要确该表在两者之间是大的一方]
- Sort-Merge-Bucket(SMB) Map Join[使用前提:所有的表必须是桶分区(bucket)和已经排序的(sort)]
- 如何创建bucket表
- Hive默认是禁用分桶功能的,设置属性来强制使用分桶功能[hive.enforce.bucketing=true]
- hive有哪些file formats
- Text File Format:默认格式,不压缩数据,磁盘开销大。
- Sequence File Format:SF是Hadoop API提供的一种二进制文件支持。使用方便、可分割、可压缩。
SF支持3中压缩格式:NONE、RECORD、BLOCK,建议使用BLOCK压缩。 - RC File Format:RC是一种行列存储相结合的存储方式。
- Parquet:列式数据存储
- AVRO:avro Schema数据序列化
- ORC:对RCFile做了优化,支持各种复杂的数据类型。
- hive最优的file formates是什么
ORC
- ORC将行的集合存储在一个文件中,且集合内的行数据将以列式存储。采用列式格式是为了压缩,从而降低存储成本。
- 查询:查询的是指定列而不是行,记录以列式存储
- ORC基于列创建索引,查询效率高。
- hive传参
- 使用--hivevar传入
- orderby 和 sortby的区别
- order by:全局排序,但是只能有一个partition
- sort by:局部排序,全局无序,partition内部有序,partition与partition之间没有关系。
- hive和hbase的区别
- hive支持SQL查询,Hbase不支持。
- hive不支持Record级别和删除操作。
- hive定义为数仓,HBase定义为NOSQL数据库。
Hive的一些学习内容的更多相关文章
- web前端开发学习内容
应该 具备的 知识技能 :懂web标准,熟练手写 xhtml css3 并符合 符合w3c标准 代码能 兼容主流浏览器.ie6.7.8.9 ff 等. ...
- STM32学习内容和计划
一.STM32学习内容(流程) 1.学习STM32开发流程 ①MDK使用.建立工程.调试等 ②库开发方法 2.学习STM32常用外设开发 ①GPIO ②中断 ③定时器 ④串口 ⑤CAN 3.学习STM ...
- u-boot代码学习内容
前言 u-boot代码庞大,不可能全部细读,只能有选择的读部分代码.在读代码之前,根据韦东山教材,关于代码学习内容和深度做以下预先划定. 一.Makefile.mkconfig.config.mk等 ...
- 2.Freshman阶段学习内容的确定
我刷知乎.在知乎上答题的程序员,不是很牛逼就是更牛逼,说起各种系统.各种系统的各种版本.各种语言.数据库.算法.IT届的各种圣战都有板有眼.信手拈来.头头是道,不得不服.这导致了一些非常严重的问题:我 ...
- 20155209 2016-2017-2 《Java程序设计》第九周学习总结 ## 教材学习内容总结
教材学习内容总结 JDBC API 允许用户访问任何形式的表格数据,尤其是存储在关系数据库中的数据. 执行流程: •连接数据源,如:数据库. •为数据库传递查询和更新指令. •处理数据库响应并返回的结 ...
- JAVA第十周《网络编程》学习内容总结
JAVA第十周<网络编程>学习内容总结 学习内容总结 1.初听到网络编程四个字可能会觉得很困难,实际上网络编程就是在两个或两个以上的设备(例如计算机)之间传输数据,把数据发送到指定的位置, ...
- # 20145118 《Java程序设计》第4周学习总结 ## 教材学习内容总结
20145118 <Java程序设计>第4周学习总结 教材学习内容总结 本周内容为教材第六.七两张内容. 重点概念: 1.面向对象中,子类继承父类,避免重复的行为定义,是一种简化操作. 2 ...
- 20145118 《Java程序设计》第5周学习总结 教材学习内容总结
20145118 <Java程序设计>第5周学习总结 教材学习内容总结 1.Java中所有错误都会被打包成对象,可以通过try.catch语法对错误对象作处理,先执行try,如果出错则跳出 ...
- 20155328 2016-2017-2 《Java程序设计》 第十周学习内容总结
20155328 2016-2017-2 <Java程序设计>第十周学习总结 教材学习内容总结 JAVA和ANDROID开发学习指南 第22章 网络概览 两台计算机用于通信的语言叫做&qu ...
随机推荐
- UWP 中的各种文件路径(用户、缓存、漫游、安装……)
原文 UWP 中的各种文件路径(用户.缓存.漫游.安装……) UWP 提供了多种不同文件路径访问方式,对应到不同的文件路径中.可能我们只是简单用 ApplicationData.Current 获取一 ...
- 对于ado.net dataProvider的介绍
学习刘皓的 ADO.NET入门教程(二)了解.NET数据提供程序 而来 这篇文章很一般,主要是对dataProvider做了个简单的介绍.因为在该系列文章中提到,ado.net主要有两部分 dataP ...
- WPF中制作带中国农历的万年历
原文:WPF中制作带中国农历的万年历 本例应用.net 2.0中的ChineseLunisolarCalendar类,制作出带中国农历的万年历. 先看看效果图片(已缩小,原始图片为:http://p ...
- java socket 的参数选项解读
java socket中有很多参数可以选择,这篇博客的目的是沉淀出这些参数的语义和用法,供自己以后查阅. 1.java socket参数选项总览 在JDK1.6中有如下参数选项: public fin ...
- Effective JavaScript Item 38 调用父类的构造函数在子类的构造函数
作为这一系列Effective JavaScript的读书笔记. 在一个游戏或者图形模拟的应用中.都会有场景(Scene)这一概念.在一个场景中会包括一个对象集合,这些对象被称为角色(Actor). ...
- 解决popup不随着window一起移动的问题
原文:解决popup不随着window一起移动的问题 当我们设置Popup的StayOpen="True"时,会发现移动窗体或者改变窗体的Size的时候,Popup并不会跟随着一起 ...
- .NET 上传并解析CSV文件存库
1.前端: 放置浏览按钮 <div class="row inner_table text-center"> <input id="fileId&quo ...
- 【msdn wpf forum翻译】获取当前窗口焦点所在的元素
原文:[msdn wpf forum翻译]获取当前窗口焦点所在的元素 原文地址: http://social.msdn.microsoft.com/Forums/en-US/wpf/thread/6b ...
- JPlayer-MP3播放器(带播放列表)
第一篇随笔,写的不好的地方,各位不要见笑.其他的也不多说了,下面是我在工作中用的一个基于JQuery开源的插件,官方地址:http://www.jplayer.org/.先看下要实现的效果图: 首先引 ...
- mysql的命令行安装,忘记密码,密码重置问题
1.下载,安装msi 2.在MYSQL安装目录下,新建data目录 3.进入MYSQL的安装目录下,新建一个默认配置文件my.ini [mysql] # 设置mysql客户端默认字符集 default ...