hive 0.10 0.11新增特性综述

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0，并且线上shark所依赖的hive版本也停留在0.9.0上，在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快，新版本中修复了大量bug，新增了很多功能，非常令人兴奋，其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11(最近看到mailist上0.12版本也快呼之欲出了，但是保险起见，还是先升级为0.11), 另外shark的github上也已经拉出了hive 0.11分支来支持新版本。

因为是从0.9一下跳过0.10跨越到0.11，所以调研和测试会cover掉hive 0.10和0.11

从hive的release note上，0.10新加的feature和bug fix如下：
1. 支持Cube, Grouping and Rollup语法，可以进行多级group by
https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollup

2. 对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT 20语句，不需要起MapReduce job，直接通过Fetch task获取数据
https://issues.apache.org/jira/browse/HIVE-887

3. 新增"Explain dependency"语法，以json格式输出执行语句会读取的input table和input partition信息，这样debug语句会读取那些表就很方便了
https://issues.apache.org/jira/browse/HIVE-3610

hive (default)> explain dependency select count(1) from abc;

OK

Explain

{"input_partitions":[],"input_tables":[{"tablename":"default@abc","tabletype":"MANAGED_TABLE"}]}

Time taken: 0.095 seconds, Fetched: 1 row(s)

4. 新增"show create table"语法，这样能知道是如何创建表的。之前我们很暴力，直接读取metastore dababase信息来重建表结构信息，如果一旦metastore schema升级，就很容易出问题，这次hive应该是通过metastore client api实现了这个功能，非常靠谱。

https://issues.apache.org/jira/browse/HIVE-967

5. HWI用bootstrap前端框架重写了一边，这个对我们帮助不大，因为我们已经有Hive web了

6. Hadoop 2 - YARN的兼容性支持

7. List Bucketing Table，优化处理有数据倾斜的表
https://cwiki.apache.org/confluence/display/Hive/ListBucketing

8. Union优化，如果Union语句的parent是mapreduce job，那么它会先将结果写入临时文件中，Union再读取这些临时文件写入最终目录，上层语句再读取最终目录，这样导致结果文件读了两遍。优化策略就是结果数据直接往最终目录上写
https://cwiki.apache.org/confluence/display/Hive/Union+Optimization

9. skew join 优化
https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization

10. metastore支持在server side做authorization验证
https://issues.apache.org/jira/browse/HIVE-3705

11. metastore thrift reconnect支持，当metastore client链接一台metastore thrift server抛出异常，如果用户在conf之指定了多个metastore uris，hive会重新对另外一个建立链接，这个对用户端是透明的
https://issues.apache.org/jira/browse/HIVE-3400

12. 记录column统计信息, analyze语句会统计hive table partitions column信息到metastore里面（比如记录long类型column的low value, high value, num nulls, numDVs），同时提供了metastore api接口来访问这些信息，目前的hive优化策略都是基于rule-based的，而有了这些统计信息有助于未来建立cost-based 执行计划策略
语法如下：
analyze table t [partition p] compute statistics for [columns c,...];
https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive

13. 支持cross join语法
https://issues.apache.org/jira/browse/HIVE-2549

14. 支持SHOW TBLPROPERTIES语法
https://issues.apache.org/jira/browse/HIVE-2530

----------------------------------------------------不是那么华丽的分割线--------------------------------------------------

Hortonworks发布了一个叫stinger的项目计划，分阶段逐步改善Hive的性能，包括优化器的改进，ORCFile支持，基于DAG的Tez，向量执行引擎，0.11其实就是stinger phase one的产物

0.11 新增的Feature:
1. 把Hcatalog整合到hive里面了，而不是独立的项目

2. 支持ORCFile文件格式，基于列存储，文件内置有inline index，可以基于文件做predicate pushdown，根据stripe的元数据来选择是否跳过stripe，大大降低input size
https://cwiki.apache.org/Hive/languagemanual-orc.html

3. 支持windowing和analytics方法，比如lead/lag, row_number, rank, first, last函数
https://cwiki.apache.org/Hive/languagemanual-windowingandanalytics.html

4. Join优化，包括broadcast join和SMB join，对于在多个相同列上做join的表(star join)已经不依赖于用户指定的hint token了，可以自动转化多个MapReduce job为一个MapReduce job
https://issues.apache.org/jira/browse/HIVE-3403

5. unset TBLPROPERTY
ALTER TABLE tableName UNSET TBLPROPERTIES IF EXISTS (key1, key2, ...)

6. group by 语法增强，group by除了可以跟column alias，也可以跟column position
比如：select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);可以写成select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;
https://issues.apache.org/jira/browse/HIVE-581

7. 增加decimal data格式
https://issues.apache.org/jira/browse/HIVE-2693

8. 支持truncate语法，truncate会删除表和分区下的所有数据，但是metadata信息会保留

9. 新增Hive Server 2，解决之前存在的security和concurrency问题。同时新增加了Beeline CLI（基于SQLLine），可以在command-line中以交互式的访问Hive Server 2
https://issues.apache.org/jira/browse/HIVE-2935

10. 增强Query Plan优化策略，会删除冗余的operator
https://issues.apache.org/jira/browse/HIVE-948

接下来会重点对几个新增特性，比如Hive Server 2, ORCFile, SMB join等做更深入的调研和测试

本文链接http://blog.csdn.net/lalaguozhe/article/details/11730817，转载请注明

hive 0.10 0.11新增特性综述的更多相关文章

（数据科学学习手札129）geopandas 0.10版本重要新特性一览
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介就在前不久,我们非常熟悉的Python地理 ...
Java SE 11 新增特性
Java SE 11 新增特性作者:Grey 原文地址:Java SE 11 新增特性源码源仓库: Github:java_new_features 镜像仓库: GitCode:java_new ...
kafka0.9.0及0.10.0配置属性
问题导读1.borker包含哪些属性?2.Producer包含哪些属性?3.Consumer如何配置?borker(0.9.0及0.10.0)配置Kafka日志本身是由多个日志段组成(log segm ...
Kafka 0.10.0
2.1 Producer API We encourage all new development to use the new Java producer. This client is produ ...
Kafka： Producer （0.10.0.0）
转自:http://www.cnblogs.com/f1194361820/p/6048429.html 通过前面的架构简述,知道了Producer是用来产生消息记录,并将消息以异步的方式发送给指定的 ...
Kafka版本升级 ( 0.10.0 -> 0.10.2 )
升级Kafka集群的版本其实很简单,核心步骤只需要4步,但是我们需要在升级的过程中确保每一步操作都不会“打扰”到producer和consumer的正常运转.为此,笔者在本机搭了一个测试环境进行实际的 ...
Java 5，6，7，8，9，10，11新特性
转自https://it18monkey.github.io java5 泛型 (Generics) List<Integer> list=new ArrayList<Integer ...
Java 5，6，7，8，9，10，11新特性吐血总结
作者:拔剑少年简书地址:https://www.jianshu.com/u/dad4d9675892 博客地址:https://it18monkey.github.io 转载请注明出处 java5 ...
Structured Streaming + Kafka Integration Guide 结构化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)
用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka. 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact ...

随机推荐

JQuery初识
一.什么是JQuery JQuery官方网站上是这样解释的:JQuery是一个快速简洁的JavaScript库,它可以简化HTML文档的元素遍历.事件处理.动画及Ajax交互,快速开发We ...
IISExpress实现外部访问
首先修改IISExpress配置文件 \IISExpress\config\applicationhost.config 在website中添加一个binding <binding protoc ...
OSG消锯齿
osg::DisplaySettings::instance()->setNumMultiSamples(); 在osg+mfc下成功实现抗锯齿,在程序初始化的时候,即在osg控制类中,我的 ...
IBM HeapAnalyzer
https://www.ibm.com/developerworks/community/wikis/home?lang=en#!/wiki/W3b463571efc8_4f02_99af_3cbc0 ...
组合框里添加复选框的方法（使用勾选的假象，用图片代替而已，并非QT原生支持）
组合框可以看作是列表框和文本框的组合,因其占据的空间少,使用操作方便,常被界面设计人员用于界面开发设计中,在有限个输入的条件下,组合框常用来代替文本框,这样从用户使用角度来看,更趋人性化,所见即所得. ...
害人的VS2008,manifest导致“应用程序配置不正确，应用程序未能启动”
在VC++2008的项目中,如何显示地指定要使用的C++库的版本? 开发环境:VS2008 SP1 + Win2003 SP2 因为我的VS2008安装了SP1补丁,所以有了9.0.3 ...
Linux操作系统定时任务系统Cron入门、PHP计划任务以及rpc示例
一.简单介绍 1.cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业.由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动.关闭这个服务: servic ...
cc150:实现一个算法来删除单链表中间的一个结点，仅仅给出指向那个结点的指针
实现一个算法来删除单链表中间的一个结点,仅仅给出指向那个结点的指针. 样例: 输入:指向链表a->b->c->d->e中结点c的指针结果:不须要返回什么,得到一个新链表:a- ...
新浪微博开放平台开发-android客户端（1）【转】
http://www.cnblogs.com/virusswb/archive/2011/08/05/2128941.html 最近不是太忙,花了一些时间学习android的应用开发.经过两个星期的学 ...
Swift和Objective-C混合编程
假设你现在就是一个iOS程序员,你对Objective-C很熟悉,对iOS开发也很熟悉,然而,苹果公司在iOS 8之后推出了Swift语言.那么,如何才能快速地从Objective-C过渡到Swift ...

hive 0.10 0.11新增特性综述

hive 0.10 0.11新增特性综述的更多相关文章

随机推荐

热门专题