hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

https://github.com/liufengji/Compression_Format_Data



log.txt 大小为18.1 M

1.2 TextFile

创建表，存储数据格式为TextFile

create table log_text (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as textfile ;

向表中加载数据

load data local inpath '/home/hadoop/log.txt' into table log_text ;

查看表的数据量大小

dfs -du -h /user/hive/warehouse/log_text;



+------------------------------------------------+--+

|                   DFS Output                   |

+------------------------------------------------+--+

| 18.1 M  /user/hive/warehouse/log_text/log.txt  |

+------------------------------------------------+--+

1.3 Parquet

创建表，存储数据格式为 parquet

create table log_parquet  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as parquet;

向表中加载数据

insert into table log_parquet select * from log_text;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_parquet;



+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 13.1 M  /user/hive/warehouse/log_parquet/000000_0  |

+----------------------------------------------------+--+

1.4 ORC

创建表，存储数据格式为ORC

create table log_orc  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc  ;

向表中加载数据

insert into table log_orc select * from log_text ;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

1.5 存储文件的压缩比总结

ORC >  Parquet >  textFile

2、存储文件的查询速度测试

2.1 TextFile

select count(*) from log_text;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (16.99 seconds)

2.2 Parquet

select count(*) from log_parquet;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (17.994 seconds)

2.3 ORC

select count(*) from log_orc;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (15.943 seconds)

2.4 存储文件的查询速度总结

ORC > TextFile > Parquet

3、存储和压缩结合

使用压缩的优势是可以最小化所需要的磁盘存储空间，以及减少磁盘和网络io操作
官网地址
- https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC支持三种压缩：ZLIB,SNAPPY,NONE。最后一种就是不压缩，orc默认采用的是ZLIB压缩。

3.1 创建一个非压缩的的ORC存储方式表

1、创建一个非压缩的的ORC表

create table log_orc_none (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="NONE") ;

2、加载数据

insert into table log_orc_none select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_none;

+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 7.7 M  /user/hive/warehouse/log_orc_none/000000_0  |

+----------------------------------------------------+--+

3.2 创建一个snappy压缩的ORC存储方式表

1、创建一个snappy压缩的的ORC表

create table log_orc_snappy (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="SNAPPY") ;

2、加载数据

insert into table log_orc_snappy select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_snappy;

+------------------------------------------------------+--+

|                      DFS Output                      |

+------------------------------------------------------+--+

| 3.8 M  /user/hive/warehouse/log_orc_snappy/000000_0  |

+------------------------------------------------------+--+

3.3 创建一个ZLIB压缩的ORC存储方式表

不指定压缩格式的就是默认的采用ZLIB压缩
- 可以参考上面创建的 log_orc 表
查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

3.4 存储方式和压缩总结

orc 默认的压缩方式ZLIB比Snappy压缩的还小。
在实际的项目开发当中，hive表的数据存储方式一般选择：orc或parquet。
由于snappy的压缩和解压缩效率都比较高，压缩方式一般选择snappy。

hive基础知识五的更多相关文章

《Programming Hive》读书笔记（两）Hive基础知识
<Programming Hive>读书笔记(两)Hive基础知识 :第一遍读是浏览.建立知识索引,由于有些知识不一定能用到,知道就好.感兴趣的部分能够多研究. 以后用的时候再具体看.并结 ...
Python基础知识(五)------字典
Python基础知识(四)------字典字典一丶什么是字典 dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔键: 必须是可哈希,(不可变的数据类型 ...
Hive基础知识梳理
Hive简介 Hive是什么 Hive是构建在Hadoop之上的数据仓库平台. Hive是一个SQL解析引擎,将SQL转译成MapReduce程序并在Hadoop上运行. Hive是HDFS的一个文件 ...
Android学习之基础知识五—创建自定义控件
下面是控件和布局的继承关系: 从上面我们看到: 1.所有控件都是直接或间接继承View,所有的布局都是直接或间接继承ViewGroup 2.View是Android中最基本的UI组件,各种组件其实就是 ...
hive基础知识四
1. hive表的数据压缩 1.1 数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩 ...
python基础知识五
数据结构基本上就是---它们可以处理一些数据的结构.或者说,它们是用来存储一组相关数据的. python中有三种内建的数据结构---列表.元祖和字典. 我们将会学习如何使用它们,以及它们如何使编程变得 ...
Hive基础知识
一.产生背景 1.MapReudce编程繁琐,需要编写大量的代码 2.HDFS中存放的都是文件,在HDFS中没有Scheme的概念,无法用SQL进行快速的查询. 二.Hive的概念 Hive是基于Ha ...
Android学习之基础知识五—编写聊天界面
第一步:在app/build.grandle添加RecyclerView依赖库第二步:在activity_main.xml文件中编写主界面:聊天.发送框.发送按钮三个部分第三步:编写Message ...
Android学习之基础知识五—RecyclerView（滚动控件）
RecyclerView可以说是增强版的ListView,不仅具有ListVIew的效果,还弥补许多ListView的不足. 一.RecyclerView的基本用法与百分比布局类似,Recycler ...

随机推荐

SQL --------------- between 和< >
between值 and 值运算符用于选取介于两个值之间的数据范围内的值,常与where一块使用between运算符选择给定范围内的值.值可以是数字,文本或日期. 使用between的时候会与and ...
【MySQL】MariaDB10.2新特性--Flashback
MariaDB10.2新特性--Flashback Flashback可以回滚到旧的数据,用于解决用户误删除数据的问题. 实战例子 MariaDB [zsd]> select * from te ...
Unity调用windows系统dialog 选择文件夹
#region 调用windows系统dialog 选择文件夹 [StructLayout(LayoutKind.Sequential, CharSet = CharSet.Auto)] public ...
第一个APP上架IOS审核相关的记录
以前一直没做过APP开发,第一版是用WAP版做的,采用了light7框架制作,没有UI设计. 升级到第二版之后,使用了HBUILDER的方式开发,https://dcloud.io/ 官方在这里. 目 ...
大数据Excel导出方案
static void Main(string[] args) { Excel.Application app = new Excel.Application(); Excel._Workbook r ...
解决Hangfire 导致服务器内存飙涨
最近因为项目需要调度作业服务,之前看张队推荐过一篇https://www.cnblogs.com/yudongdong/p/10942028.html 故直接拿过来实操,发现很好用,简单.方便执行 ...
Javascript 日历插件
1. The Coolest Calendar 界面非常漂亮的一款日期选择插件,有详细的使用文档,最新版本 1.5. 点击下载查看示例 2. DatePicker 这款日期插件支持单选.多选和 ...
python类的构造函数
最新的 Python3.7 中(2018.07.13),对类的构造函数进行了精简. from dataclasses import dataclass @dataclass class A: x:in ...
Mybatis一对一，一对多，多对多代码
一对一   <select id="oneToOne" resultType=" ...
设计模式之（十四）责任链模式（Chain of Responsibility）
在业务场景中,有很多是需要审批的.审核方式还可能常常发生变化,而责任链模式就是为了解决这种场景的情况的. 责任链模式定义:十多个对象都有机会处理请求,从而避免发送者和接受者之间的耦合关系.讲这些对象连 ...

hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

1.2 TextFile

1.3 Parquet

1.4 ORC

1.5 存储文件的压缩比总结

2、存储文件的查询速度测试

2.1 TextFile

2.2 Parquet

2.3 ORC

2.4 存储文件的查询速度总结

3、存储和压缩结合

3.1 创建一个非压缩的的ORC存储方式表

3.2 创建一个snappy压缩的ORC存储方式表

3.3 创建一个ZLIB压缩的ORC存储方式表

3.4 存储方式和压缩总结

hive基础知识五的更多相关文章

随机推荐

热门专题