hive 0.10 0.11新增特性综述
我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0,并且线上shark所依赖的hive版本也停留在0.9.0上,在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快,新版本中修复了大量bug,新增了很多功能,非常令人兴奋,其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11(最近看到mailist上0.12版本也快呼之欲出了,但是保险起见,还是先升级为0.11), 另外shark的github上也已经拉出了hive 0.11分支来支持新版本。
因为是从0.9一下跳过0.10跨越到0.11,所以调研和测试会cover掉hive 0.10和0.11
从hive的release note上,0.10新加的feature和bug fix如下:
1. 支持Cube, Grouping and Rollup语法,可以进行多级group by
https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollup
2. 对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT 20语句,不需要起MapReduce job,直接通过Fetch task获取数据
https://issues.apache.org/jira/browse/HIVE-887
3. 新增"Explain dependency"语法,以json格式输出执行语句会读取的input table和input partition信息,这样debug语句会读取那些表就很方便了
https://issues.apache.org/jira/browse/HIVE-3610
hive (default)> explain dependency select count(1) from abc;
OK
Explain
{"input_partitions":[],"input_tables":[{"tablename":"default@abc","tabletype":"MANAGED_TABLE"}]}
Time taken: 0.095 seconds, Fetched: 1 row(s)
4. 新增"show create table"语法,这样能知道是如何创建表的。之前我们很暴力,直接读取metastore dababase信息来重建表结构信息,如果一旦metastore schema升级,就很容易出问题,这次hive应该是通过metastore client api实现了这个功能,非常靠谱。
https://issues.apache.org/jira/browse/HIVE-967
5. HWI用bootstrap前端框架重写了一边,这个对我们帮助不大,因为我们已经有Hive web了
6. Hadoop 2 - YARN的兼容性支持
7. List Bucketing Table,优化处理有数据倾斜的表
https://cwiki.apache.org/confluence/display/Hive/ListBucketing
8. Union优化,如果Union语句的parent是mapreduce job,那么它会先将结果写入临时文件中,Union再读取这些临时文件写入最终目录,上层语句再读取最终目录,这样导致结果文件读了两遍。优化策略就是结果数据直接往最终目录上写
https://cwiki.apache.org/confluence/display/Hive/Union+Optimization
9. skew join 优化
https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization
10. metastore支持在server side做authorization验证
https://issues.apache.org/jira/browse/HIVE-3705
11. metastore thrift reconnect支持,当metastore client链接一台metastore thrift server抛出异常,如果用户在conf之指定了多个metastore uris,hive会重新对另外一个建立链接,这个对用户端是透明的
https://issues.apache.org/jira/browse/HIVE-3400
12. 记录column统计信息, analyze语句会统计hive table partitions column信息到metastore里面(比如记录long类型column的low value, high value, num nulls, numDVs),同时提供了metastore api接口来访问这些信息,目前的hive优化策略都是基于rule-based的,而有了这些统计信息有助于未来建立cost-based 执行计划策略
语法如下:
analyze table t [partition p] compute statistics for [columns c,...];
https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive
13. 支持cross join语法
https://issues.apache.org/jira/browse/HIVE-2549
14. 支持SHOW TBLPROPERTIES语法
https://issues.apache.org/jira/browse/HIVE-2530
----------------------------------------------------不是那么华丽的分割线--------------------------------------------------
Hortonworks发布了一个叫stinger的项目计划,分阶段逐步改善Hive的性能,包括优化器的改进,ORCFile支持,基于DAG的Tez,向量执行引擎,0.11其实就是stinger phase one的产物
0.11 新增的Feature:
1. 把Hcatalog整合到hive里面了,而不是独立的项目
2. 支持ORCFile文件格式,基于列存储,文件内置有inline index,可以基于文件做predicate pushdown,根据stripe的元数据来选择是否跳过stripe,大大降低input size
https://cwiki.apache.org/Hive/languagemanual-orc.html
3. 支持windowing和analytics方法,比如lead/lag, row_number, rank, first, last函数
https://cwiki.apache.org/Hive/languagemanual-windowingandanalytics.html
4. Join优化,包括broadcast join和SMB join,对于在多个相同列上做join的表(star join)已经不依赖于用户指定的hint token了,可以自动转化多个MapReduce job为一个MapReduce job
https://issues.apache.org/jira/browse/HIVE-3403
5. unset TBLPROPERTY
ALTER TABLE tableName UNSET TBLPROPERTIES IF EXISTS (key1, key2, ...)
6. group by 语法增强,group by除了可以跟column alias,也可以跟column position
比如:select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);可以写成select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;
https://issues.apache.org/jira/browse/HIVE-581
7. 增加decimal data格式
https://issues.apache.org/jira/browse/HIVE-2693
8. 支持truncate语法,truncate会删除表和分区下的所有数据,但是metadata信息会保留
9. 新增Hive Server 2,解决之前存在的security和concurrency问题。同时新增加了Beeline CLI(基于SQLLine),可以在command-line中以交互式的访问Hive Server 2
https://issues.apache.org/jira/browse/HIVE-2935
10. 增强Query Plan优化策略,会删除冗余的operator
https://issues.apache.org/jira/browse/HIVE-948
接下来会重点对几个新增特性,比如Hive Server 2, ORCFile, SMB join等做更深入的调研和测试
本文链接http://blog.csdn.net/lalaguozhe/article/details/11730817,转载请注明
hive 0.10 0.11新增特性综述的更多相关文章
- (数据科学学习手札129)geopandas 0.10版本重要新特性一览
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在前不久,我们非常熟悉的Python地理 ...
- Java SE 11 新增特性
Java SE 11 新增特性 作者:Grey 原文地址:Java SE 11 新增特性 源码 源仓库: Github:java_new_features 镜像仓库: GitCode:java_new ...
- kafka0.9.0及0.10.0配置属性
问题导读1.borker包含哪些属性?2.Producer包含哪些属性?3.Consumer如何配置?borker(0.9.0及0.10.0)配置Kafka日志本身是由多个日志段组成(log segm ...
- Kafka 0.10.0
2.1 Producer API We encourage all new development to use the new Java producer. This client is produ ...
- Kafka: Producer (0.10.0.0)
转自:http://www.cnblogs.com/f1194361820/p/6048429.html 通过前面的架构简述,知道了Producer是用来产生消息记录,并将消息以异步的方式发送给指定的 ...
- Kafka版本升级 ( 0.10.0 -> 0.10.2 )
升级Kafka集群的版本其实很简单,核心步骤只需要4步,但是我们需要在升级的过程中确保每一步操作都不会“打扰”到producer和consumer的正常运转.为此,笔者在本机搭了一个测试环境进行实际的 ...
- Java 5,6,7,8,9,10,11新特性
转自https://it18monkey.github.io java5 泛型 (Generics) List<Integer> list=new ArrayList<Integer ...
- Java 5,6,7,8,9,10,11新特性吐血总结
作者:拔剑少年 简书地址:https://www.jianshu.com/u/dad4d9675892 博客地址:https://it18monkey.github.io 转载请注明出处 java5 ...
- Structured Streaming + Kafka Integration Guide 结构化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)
用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka. 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact ...
随机推荐
- SQL标识列的查询
1.判段一个表是否具有标识列 www.2cto.com 可以使用 OBJECTPROPERTY 函数确定一个表是否具有 IDENTITY(标识)列,用法: Select OBJECT ...
- C/C++中volatile关键字详解 (转)
1. 为什么用volatile? C/C++ 中的 volatile 关键字和 const 对应,用来修饰变量,通常用于建立语言级别的 memory barrier.这是 BS 在 "The ...
- Hive学习之动态分区及HQL
Hive动态分区 1.首先创建一个分区表create table t10(name string) partitioned by(dt string,value string)row format d ...
- java——多线程——单例模式的static方法和非static方法是否是线程安全的?
单例模式的static方法和非static方法是否是线程安全的? 答案是:单例模式的static方法和非static方法是否是线程安全的,与单例模式无关.也就说,如果static方法或者非static ...
- SimpleXML 使用详细例子
要处理XML 文件,有两种传统的处理思路:SAX 和DOM.SAX 基于事件触发机制, 对XML 文件进行一次扫描,完成要进行的处理:DOM 则将整个XML 文件构造为一棵DOM 树,通过对DOM 树 ...
- 【Howie玩docker】-命令行只显示-bash-4.1#
灵雀云上面用docker建了个centOS的实例,首个免费,正好当云主机来玩. 但是,打开有个问题,命令行不显示当前用户和路径. 只显示: -bash-4.1# 简单,配置文件不全而已. 下面对其重新 ...
- 浅谈Java泛型中的extends和super关键字(转)
通配符 在本文的前面的部分里已经说过了泛型类型的子类型的不相关性.但有些时候,我们希望能够像使用普通类型那样使用泛型类型: 向上造型一个泛型对象的引用 向下造型一个泛型对象的引用 向上造型一个泛型对象 ...
- 多版本jQuery的使用剖析
</div> </div> <!-- basic scripts --> <!--[if !IE]> --> <!-- <![endi ...
- Course(简单的字符串处理问题)
Course 时间限制:1000 ms | 内存限制:65535 KB [问题描述] There is such a policy in Sichuan University that if yo ...
- Servlet -- 跳转到页面后的绝对路径与相对路径的问题
我们在使用servlet或其它框架,从后台跳转到视图层的时候.常会遇到这种情况,CSS和JS文件失效了,可是假设通过网址直接訪问JSP是没问题的. 这就是由于绝对路径和相对路径导致的. 绝对路径.就是 ...