Hive Tunning（二）优化存储

接着上一章我们讲的hive的连接策略，现在我们讲一下hive的数据存储。

下面是hive支持的数据存储格式，有我们常见的文本，JSON，XML，这里我们主要讲一下ORCFile。

Built-in Formats:
– ORCFile
– RCFile
– Avro
– Delimited Text
– Regular Expression
– S3 Logfile
– Typed Bytes
• 3
rd
-Party Addons:
– JSON
– XML

这种格式非常适合HDFS，它有以下的优点：

•高压缩
– 高压缩比.
– 字典编码.
•高性能
– 自带索引.
– 高效的精确查询.
• 灵活的数据模型
– 支持所有的hive类型，包括maps.

从图中可以看出，orc格式的文件存储大小仅为文本的30%左右，比gz格式的都小，采用zlib压缩的话，更小，仅有22%左右。

使用orc格式存储的方式很简单，在建表的时候STORED AS orc即可

CREATE TABLE sale (
      id    int,   timestamp timestamp,
      productsk   int, storesk int,
      amount   decimal, state string
)    STORED   AS   orc;

相关参数，自己看，不解释了。

不适用zlib压缩的话，查询速度更快，但是也大一些。

CREATE    TABLE    sale    (
                id    int,    timestamp    timestamp,
productsk    int,    storesk    int,
                amount    decimal,    state    string
)    STORED    AS    orc    tblproperties    ("orc.compress"="NONE");

下面是加快hive查询的一些可以参考的方式：

（1）跳跃读取：采用分区Partition或者使用Skew，才用ORCFile二次排序。

（2）在连接字段上排序并且bucket，在连接小表的时候采用Broadcast joins。

（3）对经常使用的数据，增加备份因子，激活Short-Circuit Read，采用Tez。

当某个表很大的时候，我们往往要对其进行分区，比如按照时间来分区。

CREATE    TABLE    sale    (
                id    int,    amount    decimal,    ...
)    partitioned    by    (xdate    string,    state    string);

其中的xdate和state是不存在的列，你可以认为它们是虚拟列，虚拟列会在HDFS当中建立子目录，属于分区的记录会存在那个子文件夹中。

使用分区之后，在查询和插入的时候，就必须带有至少一个分区字段，否则查询将会失败。

INSERT    INTO    sale    (xdate=‘2013-03-01’,    state=‘CA’)
SELECT    *    FROM    staging_table
WHERE    xdate    =    ‘2013-03-01’    AND    state    =    ‘CA’;

如果你想一次查出所有数据，不想受这个限制的话，你可以 hive.exec.dynamic.partition.mode参数置为nonstrict。

set    hive.exec.dynamic.partition.mode=nonstrict;

INSERT    INTO    sale    (xdate,    state)
SELECT    *    FROM    staging_table;

有时候插入数据的时候，我们需要重新排序,在select 语句里面把虚拟列也加上，这样会有排序的效果。

INSERT    INTO    sale    (xdate,    state=‘CA’)
SELECT
            id,    amount,    other_stuff,
xdate,    state
FROM    staging_table
WHERE    state    =    ‘CA’;

下面我们讲一下常用的hive查询调优

mapred.max.split.size和mapred.min.split.size

min    太大->   太少mapper.
max    太小->   mapper太多.

Example:
– set    mapred.max.split.size=100000000;
– set    mapred.min.split.size=1000000;

当然也有个原则，当mappers出现抢占资源的时候，才调整这些参数。

– set    io.sort.mb=100;

• All    the    time:
– set    hive.optmize.mapjoin.mapreduce=true;
– set    hive.optmize.bucketmapjoin=true;
– set    hive.optmize.bucketmapjoin.sortedmerge=true;
– set    hive.auto.convert.join=true;
– set    hive.auto.convert.sortmerge.join=true;
– set    hive.auto.convert.sortmerge.join.nocondi1onaltask=true;
• When    bucketing    data:
– set    hive.enforce.bucketing=true;
– set    hive.enforce.sortng=true;
• These    and    more    are    set    by    default    in    HDP    1.3（明显的广告词，说明HDP比较强大，已经给我们设置好了）.
这些参数我们可以在hive-site.xml中查询到，我们也可以在shell中查询。

（1）查询所有的参数

（2）查询某一个参数

（3）修改参数

Hive Tunning（二）优化存储的更多相关文章

Hive 的企业优化
优化数据优化一.从大表拆分成小表(更快地检索) 引用:Hive LanguageManual DDL eg2:常用于分表 create table if not exists default.ce ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
HDP Hive StorageHandler 下推优化的坑
关键词:hdp , hive , StorageHandler 了解Hive StorageHandler的同学都知道,StorageHandler作为Hive适配不同存储的拓展类,同时肩负着Hive ...
{MySQL存储引擎介绍}一存储引擎解释二 MySQL存储引擎分类三不同存储引擎的使用
MySQL存储引擎介绍 MySQL之存储引擎本节目录一存储引擎解释二 MySQL存储引擎分类三不同存储引擎的使用一存储引擎解释首先确定一点,存储引擎的概念是MySQL里面才有的,不是 ...
Mongodb同步数据到hive（二）
Mongodb同步数据到hive(二) 1. 概述上一篇文章主要介绍了mongodb-based,通过直连mongodb的方式进行数据映射来进行数据查询,但是那种方式会对线上的 ...
Hive（二）CentOS7.5安装Hive2.3.3
一 Hive的下载软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是:apache-hive-2.3.3-bin.t ...
《C#图解教程》读书笔记之二：存储、类型和变量
本篇已收录至<C#图解教程>读书笔记目录贴,点击访问该目录可获取更多内容. 一.类型初窥:掀起你的盖头来 (1)C程序是一组函数和数据类型,C++程序是一组函数和类,而C#程序是一组类型声 ...
【原创】构建高性能ASP.NET站点之二优化HTTP请求(前端)
原文:[原创]构建高性能ASP.NET站点之二优化HTTP请求(前端) 构建高性能ASP.NET站点之二优化HTTP请求(前端) 前言: 这段时间比较的忙,文章写不是很勤,希望大家谅解. 上一篇文 ...
Apache Hive （二）Hive安装
转自:https://www.cnblogs.com/qingyunzong/p/8708057.html Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ ...
MySQL优化-存储引擎
MySQL优化-存储引擎标签(空格分隔): mysql 存储引擎查看存储引擎 show engines Myisam: 表锁全文索引 Innodb: 行锁事物外键 Memory: 内存存储引 ...

随机推荐

几道比较难的SQL题
上条记录和下一条记录在展示博客文章时,在文章底部需要展示上一篇文章和下一篇文章,文章的排序当然是按照时间排序的. 选定下一条时可以用limit 1来实现,选取上一条时可以倒序limit 1实现 (S ...
oc 工厂方法
通过上例看oc创建实例有点麻烦,oc里面可以创建工厂方法可以让这个操作更简单一些(其实就是c#或者java里面的静态方法). 新建一个“Cocoa Touch Class”文件,命名为People P ...
转CentOS — MySQL备份 Shell 脚本
http://www.cnblogs.com/bruceleeliya/archive/2012/05/04/2482733.html 使用 mysqldump 备份数据库,通过 FTP 上传到备份服 ...
zabbix客户端安装和配置（windows)
下载相应版本客户端软件 zabbix_agents_2.4.4.win.zip 安装步骤解压 1.如果是64位系统,则把\bin\win64\下面的三个文件拷贝到c:\zabbix目录下:如果是32 ...
WPF绑定时要绑定属性，不要绑定字段
如题(就是加get;set;),绑定属性不出东西,不知道为什么...
Java生成二维码QRCode.jar
所需jar包:QRCode.jar:http://download.csdn.net/detail/xuxu198899223/7717745 package ewm; import java.awt ...
macbook基本配置
1.安装iterm2, 2.安装搜狗输入法, 3.安装迅雷, 4.安装homebrew 5.安装新版的gcc,bash等等,及升级配置文件.
用VIM打造C语言编写器
1.先用vim --version命令查看一下都是安装了那些vim特性,以及版本等等情况. vim --version VIM - Vi IMproved 7.4 (2013 Aug 10, comp ...
js 控制图片大小核心讲解
控制图片大小的方法有很多,在本文将为大家详细介绍下使用js实现缩放图片,核心代码如下,感兴趣的朋友可以参考下缩放图片脚本分享 <!DOCTYPE HTML PUBLIC "-//W3 ...
Oracle Study之-AIX6.1构建Oracle 10gR2 RAC(3)
Oracle Study之-AIX6.1构建Oracle 10gR2 RAC(3) 一.配置共享存储 [oracle@aix203 ~]$lsdev -c disk hdisk0 Available ...

Hive Tunning（二）优化存储

下面是加快hive查询的一些可以参考的方式：

下面我们讲一下常用的hive查询调优

Hive Tunning（二）优化存储的更多相关文章

随机推荐

热门专题