简介:

Apache hive 存储方式跟压缩格式!

1、Text File

hive> create external table tab_textfile (
host string comment 'client ip address',
local_time string comment 'client access time',
api string comment 'request api',
request_type string comment 'request method, http version',
http_code int, body_bytes int, request_body map<string, string>,
referer string, user_agent string, upstr string, response_time string, request_time string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '=';
OK
Time taken: 0.162 seconds

# 创建一张 Text File 存储格式、不压缩的外部表

hive> load data local inpath '/data/logs/api/201711/tvlog_20171101/bftvapi.20171101.log' overwrite into table tab_textfile;
Loading data to table tmpdb.tab_textfile
OK
Time taken: 1015.974 seconds

# 原始文件 9.8G,加载到该表中需要花费 1015.974 秒 ( 这里可以优化,不使用 load 指令,直接 put 文件到数据表目录 )

hive> select count(*) from tab_textfile;
...
Stage-Stage-: Map: Reduce: Cumulative CPU: 269.51 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: minutes seconds msec
OK Time taken: 95.68 seconds, Fetched: row(s)

# 总共 27199202 行数据,用时 95.68 秒
# 优化点:set [ hive.exec.reducers.bytes.per.reducer=<number>, hive.exec.reducers.max=<number>, mapreduce.job.reduces=<number> ]

2、ORC File

# 官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

# ORC文档:https://orc.apache.org/docs

hive> create external table tab_orcfile (
host string comment 'client ip address',
local_time string comment 'client access time',
api string comment 'request api',
request_type string comment 'request method, http version',
http_code int, body_bytes int, request_body map<string, string>,
referer string, user_agent string, upstr string, response_time string, request_time string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '='
STORED AS ORC tblproperties ("orc.compress"="NONE");
OK
Time taken: 0.058 seconds

# 创建一张 ORC File 存储格式、不压缩的外部表

hive> insert overwrite table tab_orcfile select * from tab_textfile;
...
Stage-Stage-: Map: Cumulative CPU: 2290.24 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: minutes seconds msec
OK
Time taken: 289.954 seconds

# 向 tab_orcfile 中加载数据,注意:ORC File 不能直接 load data !!!

# 可以先创建 Text File 的临时表,将数据手动上传到该表指定目录,然后转换成 ORC File 格式。

hive> select count(*) from tab_orcfile;
OK Time taken: 2.555 seconds, Fetched: row(s)

# 额,同样的语句,上面执行花费 95.68 秒,现在只要 2.555 秒。
# 换一种方式测试,先查 tab_orcfile 表,然后再查 tab_textfile 表。

hive> select count(host) from tab_orcfile;
...
Stage-Stage-: Map: Reduce: Cumulative CPU: 81.02 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: minutes seconds msec
OK Time taken: 33.55 seconds, Fetched: row(s)

# ORC File 花费 33.55 秒

hive> select count(host) from tab_textfile;
...
Stage-Stage-: Map: Reduce: Cumulative CPU: 349.77 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: minutes seconds msec
OK Time taken: 87.308 seconds, Fetched: row(s)

# Text File 花费 87.308 秒,高下立见!

3、启用压缩

# ORC 文档:https://orc.apache.org/docs/hive-config.html

hive> create external table tab_orcfile_zlib (
host string comment 'client ip address',
local_time string comment 'client access time',
api string comment 'request api',
request_type string comment 'request method, http version',
http_code int, body_bytes int, request_body map<string, string>,
referer string, user_agent string, upstr string, response_time string, request_time string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '='
STORED AS ORC;

# 默认的 ORC 压缩方式为 ZLIB,还支持 LZO、SNAPPY 等

hive> insert overwrite table tab_orcfile_zlib select * from tab_textfile;
...
Stage-Stage-: Map: Cumulative CPU: 2344.68 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: minutes seconds msec
OK
Time taken: 299.204 seconds

# 数据加载完成

hive> select count(host) from tab_orcfile_zlib;
...
Stage-Stage-: Map: Reduce: Cumulative CPU: 43.66 sec HDFS Read: HDFS Write: SUCCESS
Total MapReduce CPU Time Spent: seconds msec
OK Time taken: 31.369 seconds, Fetched: row(s)

# 查询速度不受影响

hive> dfs -ls -h /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/
Found items
-rwxrwxrwx root supergroup 24.6 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000000_0
-rwxrwxrwx root supergroup 23.0 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000001_0
-rwxrwxrwx root supergroup 25.9 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000002_0
-rwxrwxrwx root supergroup 26.5 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000003_0

# 总共分成 39 个文件,每个平均 25M,总过不到 1G,原始文件 9.8G,这压缩比如何 ?

Apache Hive 存储方式、压缩格式的更多相关文章

  1. Hive 表数据的存储和压缩格式

    SerDe * 按行存储 * 按列存储 file_format: : | SEQUENCEFILE 序列化(行存储) | TEXTFILE 文本格式(行存储)- (Default, depending ...

  2. Hadoop_常用存储与压缩格式

    HDFS文件格式 file_format: TEXTFILE 默认格式 RCFILE hive 0.6.0 和以后的版本 ORC hive 0.11.0 和以后的版本 PARQUET hive 0.1 ...

  3. Hive支持的文件格式和压缩格式及各自特点

    Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大.数据解析开销大. 对应的hive API为:org.apache.hadoop.mapred.Text ...

  4. 一文彻底搞懂Hive的数据存储与压缩

    目录 行存储与列存储 行存储的特点 列存储的特点 常见的数据格式 TextFile SequenceFile RCfile ORCfile 格式 数据访问 Parquet 测试 准备测试数据 存储空间 ...

  5. hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)

    数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...

  6. Hive压缩格式

    TextFile Hive数据表的默认格式,存储方式:行存储. 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split 但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此 ...

  7. Hive(十一)【压缩、存储】

    目录 一.Hadoop的压缩配置 1.MR支持的压缩编码 2.压缩参数配置 3.开启Mapper输出阶段压缩 4.开启Reduceer输出阶段 二.文件存储 1.列式存储和行式存储 2.TextFil ...

  8. 浓缩的才是精华:浅析GIF格式图片的存储和压缩

    成文迪, 在Web前端摸爬滚打的码农一枚,对技术充满热情的菜鸟,致力为手Q的建设添砖加瓦. GIF格式的历史 GIF(Graphics Interchange Format)原义是"图像互换 ...

  9. 【腾讯Bugly干货分享】舞动的表情包——浅析GIF格式图片的存储和压缩

    本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/v0pffOhjFWnVbU2lXjuEmw 导语 G ...

随机推荐

  1. ActiveMQ生产者和消费者优化策略

    一.生产者优化策略  默认情况下,ActiveMQ服务端认为生产者端发送的是PERSISTENT Message.所以如果要发送NON_PERSISTENT Message,那么生产者端就要明确指定. ...

  2. Queque 方法对比和分类

    添加类:方法 public boolean add(E e)      增加一个元索                     如果队列已满,则抛出一个IIIegaISlabEepeplian异常 bo ...

  3. Tomcat 自动化部署

    Tomcat 自动化部署脚本 使用方法: ./autodeploy.sh test 其中autodeploy.sh 为脚本的文件名, test为war的文件名. #!/bin/sh now=`date ...

  4. 这些 .Net and Core 相关的开源项目,你都知道吗?(持续更新中...)

    最近更新时间2017-12-28 序列化 Json.NET http://json.codeplex.com/Json.Net是一个读写Json效率比较高的.Net框架.Json.Net 使得在.Ne ...

  5. 如何更改tomcat7及以上版本内存设置

    http://jingyan.baidu.com/article/295430f1c22a940c7e0050fb.html?qq-pf-to=pcqq.c2c 当在tomcat的webapps文件夹 ...

  6. 异步FIFO空满设计延迟问题

    由于设计的时候读写指针用了至少两级寄存器同步,同步会消耗至少两个时钟周期,势必会使得判断空或满有所延迟,这会不会导致设计出错呢? 异步FIFO通过比较读写指针进行满空判断,但是读写指针属于不同的时钟域 ...

  7. bzoj 4842: [Neerc2016]Delight for a Cat

    Description ls是一个特别堕落的小朋友,对于n个连续的小时,他将要么睡觉要么打隔膜,一个小时内他不能既睡觉也打隔膜 ,因此一个小时内他只能选择睡觉或者打隔膜,当然他也必须选择睡觉或打隔膜, ...

  8. C# 在引用插件中 出现的问题| Csharp cite the plugin problem

    背景:使用C#操纵鼠标进行重复性的工作 background: using Csharp to handle the keyboard or mouse to do the repetitive wo ...

  9. Bootstrap:教程、简介、环境安装

    ylbtech-Bootstrap:教程.简介.环境安装 1. Bootstrap 教程返回顶部 1. Bootstrap 教程 Bootstrap,来自 Twitter,是目前最受欢迎的前端框架.B ...

  10. shell脚本函数

    不调用就不执行 调用就执行 调用时候的$1是指执行时候的参数1 调用之后的$是位置参数