3.4-3.6 Hive Storage Format

一、file format

ORCFile在HDP 2:更好的压缩，更好的性能：

https://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

官方ORCfile介绍：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

官方PARQUET介绍：

https://cwiki.apache.org/confluence/display/Hive/Parquet

file_format:

  : SEQUENCEFILE

  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)

  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)

  | ORC         -- (Note: Available in Hive 0.11.0 and later)

  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)

  | AVRO        -- (Note: Available in Hive 0.14.0 and later)

  | JSONFILE    -- (Note: Available in Hive 4.0.0 and later)

  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

数据存储：

    按行存储

    按列存储

#TEXTFILE ：行式存储

#其他的都是列存储，ORC是对RCFILE的优化；ORC和PARQUET用的较多；

二、测试

我们建三张表导入同样的数据，看数据存储的大小；

1、TEXTFILE

#建表

hive (default)> create table page_views(

              > track_time string,

              > url string,

              > session_id string,

              > referer string,

              > ip string,

              > end_user_id string,

              > city_id string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS TEXTFILE;

OK

Time taken: 0.089 seconds

#加载数据

hive (default)> load data local inpath '/opt/datas/page_views.data' into table page_views;

Copying data from file:/opt/datas/page_views.data

Copying file: file:/opt/datas/page_views.data

Loading data to table default.page_views

Table default.page_views stats: [numFiles=1, numRows=0, totalSize=19014993, rawDataSize=0]

OK

Time taken: 0.326 seconds

2、ORCFILE

hive (default)> create table page_views_orc(

              > track_time string,

              > url string,

              > session_id string,

              > referer string,

              > ip string,

              > end_user_id string,

              > city_id string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS orc;

OK

Time taken: 0.04 seconds

hive (default)> insert into table page_views_orc select * from page_views;

3、PARQUET

hive (default)> create table page_views_parquet(

              > track_time string,

              > url string,

              > session_id string,

              > referer string,

              > ip string,

              > end_user_id string,

              > city_id string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS parquet;

OK

Time taken: 0.037 seconds

hive (default)> insert into table page_views_parquet select * from page_views;

4、查看各个表文件大小

hive (default)> dfs -du -h /user/hive/warehouse/page_views/;

18.1 M  /user/hive/warehouse/page_views/page_views.data

hive (default)> dfs -du -h /user/hive/warehouse/page_views_orc/;

2.6 M  /user/hive/warehouse/page_views_orc/000000_0

hive (default)> dfs -du -h /user/hive/warehouse/page_views_parquet/;

13.1 M  /user/hive/warehouse/page_views_parquet/000000_0

#明显的可以看出，数据相同时，存储为不同的格式：

TEXTFILE格式的表：18.1M

ORCFILE格式的表：2.6M

PARQUET格式的表：13.1M

5、查询测试

#TEXTFILE表查询

hive (default)> select session_id, count(*) cnt from page_views group by session_id order by cnt desc limit 30;

......

Time taken: 39.427 seconds, Fetched: 30 row(s)        #39.427秒

#ORCFILE表查询

hive (default)> select session_id, count(*) cnt from page_views_orc group by session_id order by cnt desc limit 30;

......

Time taken: 38.319 seconds, Fetched: 30 row(s)        #38.319秒

#可见orc格式的表，不仅数据体积小很多，查询也有优势

三、ORCFILE优化

创建ORC表时，可以使用许多表属性进一步优化ORC的工作方式：

1、例如，假设您想使用snappy压缩而不是zlib压缩。方法如下:

#建表

hive (default)> create table page_views_orc_snappy(

              > track_time string,

              > url string,

              > session_id string,

              > referer string,

              > ip string,

              > end_user_id string,

              > city_id string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS orc tblproperties ("orc.compress"="SNAPPY");

OK

Time taken: 0.033 seconds

#插入数据

hive (default)> insert into table page_views_orc_snappy select * from page_views;

#查询

hive (default)> dfs -du -h /user/hive/warehouse/page_views_orc_snappy/;

3.8 M  /user/hive/warehouse/page_views_orc_snappy/000000_0

#此时发现，用snappy压缩完，数据反而比orcfile表数据还大了，怎么回事呢？

因为建ORCFILE表时，不指定压缩，默认使用ZLIB压缩，但是指定了snappy压缩就会使用snappy，

而且ZLIB的压缩比大于snappy，所以此时的snappy压缩稍微大一些；

总结：

在实际的项目开发当中，hive表的数据

    *存储格式I orcfile/qarquet    #推荐

    *数据压缩

        snappy        #推荐

3.4-3.6 Hive Storage Format的更多相关文章

Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
【转】Hive配置文件中配置项的含义详解（收藏版）
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1 ...
hive学习笔记——表的基本的操作
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 ...
[Hive - LanguageManual] Alter Table/Partition/Column
Alter Table/Partition/Column Alter Table Rename Table Alter Table Properties Alter Table Comment Add ...
[Hive - LanguageManual] Create/Drop/Alter Database Create/Drop/Truncate Table
Hive Data Definition Language Hive Data Definition Language Overview Create/Drop/Alter Database Crea ...
Hive调优实践
1 文件格式的选择 ORC格式确实要比textFile要更适合于hive,查询速度会提高20-40%左右例子1: youtube1的文件格式是TextFIle,youtube3的文件格式是orc h ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
Optimizing Hive queries for ORC formatted tables
Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted t ...

随机推荐

MySQL windows集群（转）
http://blog.csdn.net/zhangking/article/details/5670070 MySQL 群集是 MySQL 适合于分布式计算环境的高可用.高冗余版本.它采用了 ...
Django-extra的用法
## select提供简单数据 # SELECT age, (age > 18) as is_adult FROM myapp_person; Person.objects.all().extr ...
kubernetes调度之pod优先级和资源抢占
系列目录 Pod可以拥有优先级.优先意味着相对于其它pod某个pod更为重要.如果重要的pod不能被调度,则kubernetes调度器会优先于(驱离)低优先级的pod来让处于pending状态的高优先 ...
caffe搭建--vs2015+caffe+python3.5编译环境的搭建
修改build_win.cmd如下: @echo off @setlocal EnableDelayedExpansion :: Default values if DEFINED APPVEYOR ...
VMware安装ubuntu学习笔记（只是笔记）
VMware安装ubuntu开机黑屏/死机 1- Edit Ubuntu VM Configuration file (.vmx) 2- Add the following line cpuid.1. ...
hive编程入门课程（加精）
hive编程入门课程 http://wenku.baidu.com/link?url=BfyZWjz48G_6UJImzWw39OLB0sUrIYEYxoxNpaFbADUQekmOvQy4FPY1f ...
HDU 5336 XYZ and Drops 2015 Multi-University Training Contest 4 1010
这题的题意是给你一幅图,图里面有水滴.每一个水滴都有质量,然后再给你一个起点,他会在一開始的时候向四周发射4个小水滴,假设小水滴撞上水滴,那么他们会融合,假设质量大于4了,那么就会爆炸,向四周射出质量 ...
原来浏览器原生支持JS Base64编码解码 outside of the Latin1 range
原来浏览器原生支持JS Base64编码解码 « 张鑫旭-鑫空间-鑫生活 https://www.zhangxinxu.com/wordpress/2018/08/js-base64-atob-bto ...
统计与数学 induction 归纳 deduction 演绎吴喜之老师
“统计的思维方式是归纳(induction),也就是从数据所反映的现实得到比较一般的模型,希望以此解释数据所代表的那部分世界.这和以演绎(deduction)问哦主的数学思维方式相反,演绎是在一些人为 ...
AndroidPageObjectTest_TimeOutManagement.java
以下代码使用ApiDemos-debug.apk进行测试 //这个脚本用于演示PageFactory的功能:设置timeout时间. package com.saucelabs.appium; imp ...

3.4-3.6 Hive Storage Format

3.4-3.6 Hive Storage Format的更多相关文章

随机推荐

热门专题