hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

https://github.com/liufengji/Compression_Format_Data



log.txt 大小为18.1 M

1.2 TextFile

创建表，存储数据格式为TextFile

create table log_text (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as textfile ;

向表中加载数据

load data local inpath '/home/hadoop/log.txt' into table log_text ;

查看表的数据量大小

dfs -du -h /user/hive/warehouse/log_text;



+------------------------------------------------+--+

|                   DFS Output                   |

+------------------------------------------------+--+

| 18.1 M  /user/hive/warehouse/log_text/log.txt  |

+------------------------------------------------+--+

1.3 Parquet

创建表，存储数据格式为 parquet

create table log_parquet  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as parquet;

向表中加载数据

insert into table log_parquet select * from log_text;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_parquet;



+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 13.1 M  /user/hive/warehouse/log_parquet/000000_0  |

+----------------------------------------------------+--+

1.4 ORC

创建表，存储数据格式为ORC

create table log_orc  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc  ;

向表中加载数据

insert into table log_orc select * from log_text ;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

1.5 存储文件的压缩比总结

ORC >  Parquet >  textFile

2、存储文件的查询速度测试

2.1 TextFile

select count(*) from log_text;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (16.99 seconds)

2.2 Parquet

select count(*) from log_parquet;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (17.994 seconds)

2.3 ORC

select count(*) from log_orc;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (15.943 seconds)

2.4 存储文件的查询速度总结

ORC > TextFile > Parquet

3、存储和压缩结合

使用压缩的优势是可以最小化所需要的磁盘存储空间，以及减少磁盘和网络io操作
官网地址
- https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC支持三种压缩：ZLIB,SNAPPY,NONE。最后一种就是不压缩，orc默认采用的是ZLIB压缩。

3.1 创建一个非压缩的的ORC存储方式表

1、创建一个非压缩的的ORC表

create table log_orc_none (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="NONE") ;

2、加载数据

insert into table log_orc_none select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_none;

+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 7.7 M  /user/hive/warehouse/log_orc_none/000000_0  |

+----------------------------------------------------+--+

3.2 创建一个snappy压缩的ORC存储方式表

1、创建一个snappy压缩的的ORC表

create table log_orc_snappy (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="SNAPPY") ;

2、加载数据

insert into table log_orc_snappy select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_snappy;

+------------------------------------------------------+--+

|                      DFS Output                      |

+------------------------------------------------------+--+

| 3.8 M  /user/hive/warehouse/log_orc_snappy/000000_0  |

+------------------------------------------------------+--+

3.3 创建一个ZLIB压缩的ORC存储方式表

不指定压缩格式的就是默认的采用ZLIB压缩
- 可以参考上面创建的 log_orc 表
查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

3.4 存储方式和压缩总结

orc 默认的压缩方式ZLIB比Snappy压缩的还小。
在实际的项目开发当中，hive表的数据存储方式一般选择：orc或parquet。
由于snappy的压缩和解压缩效率都比较高，压缩方式一般选择snappy。

hive基础知识五的更多相关文章

《Programming Hive》读书笔记（两）Hive基础知识
<Programming Hive>读书笔记(两)Hive基础知识 :第一遍读是浏览.建立知识索引,由于有些知识不一定能用到,知道就好.感兴趣的部分能够多研究. 以后用的时候再具体看.并结 ...
Python基础知识(五)------字典
Python基础知识(四)------字典字典一丶什么是字典 dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔键: 必须是可哈希,(不可变的数据类型 ...
Hive基础知识梳理
Hive简介 Hive是什么 Hive是构建在Hadoop之上的数据仓库平台. Hive是一个SQL解析引擎,将SQL转译成MapReduce程序并在Hadoop上运行. Hive是HDFS的一个文件 ...
Android学习之基础知识五—创建自定义控件
下面是控件和布局的继承关系: 从上面我们看到: 1.所有控件都是直接或间接继承View,所有的布局都是直接或间接继承ViewGroup 2.View是Android中最基本的UI组件,各种组件其实就是 ...
hive基础知识四
1. hive表的数据压缩 1.1 数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩 ...
python基础知识五
数据结构基本上就是---它们可以处理一些数据的结构.或者说,它们是用来存储一组相关数据的. python中有三种内建的数据结构---列表.元祖和字典. 我们将会学习如何使用它们,以及它们如何使编程变得 ...
Hive基础知识
一.产生背景 1.MapReudce编程繁琐,需要编写大量的代码 2.HDFS中存放的都是文件,在HDFS中没有Scheme的概念,无法用SQL进行快速的查询. 二.Hive的概念 Hive是基于Ha ...
Android学习之基础知识五—编写聊天界面
第一步:在app/build.grandle添加RecyclerView依赖库第二步:在activity_main.xml文件中编写主界面:聊天.发送框.发送按钮三个部分第三步:编写Message ...
Android学习之基础知识五—RecyclerView（滚动控件）
RecyclerView可以说是增强版的ListView,不仅具有ListVIew的效果,还弥补许多ListView的不足. 一.RecyclerView的基本用法与百分比布局类似,Recycler ...

随机推荐

linux内核debug的一种方式：procfs
#include <linux/module.h> #include <linux/compat.h> #include <linux/types.h> #incl ...
MongoDB学习笔记（五）
MongoDB 查看执行计划 MongoDB 中的 explain() 函数可以帮助我们查看查询相关的信息,这有助于我们快速查找到搜索瓶颈进而解决它,本文我们就来看看 explain() 的一些用法及 ...
Android Studio Analyze APK 一直显示 Parsing Manifest探因及解决
一.背景大家都知道,Android Studio开发工具自带了Analyze Apk,可以很方便的分析Apk文件.具体位于菜单build >> Analyze APK...路径下,点击后 ...
golang --os系统包详解
环境变量 Environ 获取所有环境变量, 返回变量列表 func Environ() []string package main import ( "fmt" "os ...
Flink DataStream 编程入门
流处理是 Flink 的核心,流处理的数据集用 DataStream 表示.数据流从可以从各种各样的数据源中创建(消息队列.Socket 和文件等),经过 DataStream 的各种 transf ...
java的三种随机数生成方式
随机数的产生在一些代码中很常用,也是我们必须要掌握的.而java中产生随机数的方法主要有三种: 第一种:new Random() 第二种:Math.random() 第三种:currentTimeMi ...
Form之action提交不刷新不跳转
<div class="file-box"> <form action="/File/fileUpLoad" id="form1&q ...
Spring @Import注解源码解析
简介 Spring 3.0之前,创建Bean可以通过xml配置文件与扫描特定包下面的类来将类注入到Spring IOC容器内.而在Spring 3.0之后提供了JavaConfig的方式,也就是将IO ...
Bootstrap初始化过程源码分析--netty客户端的启动
Bootstrap初始化过程 netty的客户端引导类是Bootstrap,我们看一下spark的rpc中客户端部分对Bootstrap的初始化过程 TransportClientFactory.cr ...
canvas与svg整理与区别
1.canvas画布(位图) 2.绘制矢量图 1.不要在style中给canvas设置宽高会有位移差 2. //获取元素 var c=document.getElementById("c& ...

hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

1.2 TextFile

1.3 Parquet

1.4 ORC

1.5 存储文件的压缩比总结

2、存储文件的查询速度测试

2.1 TextFile

2.2 Parquet

2.3 ORC

2.4 存储文件的查询速度总结

3、存储和压缩结合

3.1 创建一个非压缩的的ORC存储方式表

3.2 创建一个snappy压缩的ORC存储方式表

3.3 创建一个ZLIB压缩的ORC存储方式表

3.4 存储方式和压缩总结

hive基础知识五的更多相关文章

随机推荐

热门专题