Hive ORC + SNAPPY

Hive orc 格式 + snappy 压缩是比较常用的存储加压缩格式。

今天处理下面的场景时，解决了一些问题，记录下来：

flume消费kafka的数据实时写入hdfs，通过创建分区表，t + 1 时，需要看到昨天的数据：

　　 flume 通过snappy 将数据写入hdfs，可以通过在fliume.conf中配置以下

保证每天的数据写入同一个目录中：

agent.sinks.hdfs_sink.hdfs.path = /user/hive/warehouse/ods.db/kafka_2_hdfs_test/ods_sale_alter/dt=%Y-%m-%d

避免在hdfs写入过多的小文件：
```
tier1.sinks.hdfs_sink.hdfs.idleTimeout=
```
这个参数是某个topic停止活动时间超过设置的值时，就把hdfs上文件结尾的.tmp去掉，并开始写入新文件。设置为0，表示忽略停止时间。
配置了2的参数后，会造成一个问题，当新的一天，数据开始写入hdfs上另一个目录后，
比如"dt=2019-03-02","dt=2019-03-01"文件夹下的最后一个文件，还是以.tmp结尾的，在hive建表后，数据格式错误会报错。
所以需要我们通过脚本，每天修复文件名称：
```
hadoop -mv abc.tmp abc
```
另外就是hive建表的问题：
当数据导入hdfs后，我们想针对flume倒过来的数据，建立snappy压缩，orc格式的hive表。
建表语句如下：
```
DROP TABLE IF EXISTS test_orc_snappy;

CREATE EXTERNAL TABLE test_orc_snappy (

  x_json string

  )

PARTITIONED BY (`dt` string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY "\t"

STORED AS orc

LOCATION '/user/hive/warehouse/ods.db/kafka_2_hdfs_test/test_orc_snappy'

TBLPROPERTIES ("orc.compress"="SNAPPY");
```
然而，我忽略了一件很重要的事，文件虽然用了snappy压缩，但是没有转化为orc格式。
假如我们还想继续使用orc格式，那就只能把这张表当做底层表，在上层表比如 dw 层，中通过insert into的方式，
转为orc格式的表。

那么这里可以使用的建表语句是什么呢？

CREATE EXTERNAL TABLE test_snappy (

  x_json string

  )

PARTITIONED BY (`dt` string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY "\t"

STORED AS textfile

LOCATION '/user/hive/warehouse/ods.db/kafka_2_hdfs_test/ods_sale_alter'

TBLPROPERTIES ("orc.compress"="SNAPPY")

使用textFile就可以了。

Hive ORC + SNAPPY的更多相关文章

大数据：Hive - ORC 文件存储格式
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Hive - ORC 文件存储格式【转】
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Sqoop-将MySQL数据导入到hive orc表
sqoop创建并导入数据到hive orc表 sqoop import \ --connect jdbc:mysql://localhost:3306/spider \ --username root ...
Hive:ORC File Format存储格式详解
一.定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化. 据官方文档介绍,这种文件格式可以提供一种高效的方法来存储 ...
hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: ...
hive orc update
hive-site.xml --><configuration> <!-- WARNING!!! This file is auto generated for documen ...
Hive ORC表的使用
创建普通临时表: create table if not exists test_orc_tmp( name string, gender string, cnt BIGINT )row ...
Hive存储格式之ORC File详解，什么是ORC File
目录概述文件存储结构 Stripe Index Data Row Data Stripe Footer 两个补充名词 Row Group Stream File Footer 条纹信息列统计元 ...
Hive Streaming 追加 ORC 文件
1.概述在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大.那么,我们需要有一种方 ...

随机推荐

win10上VMare安装Centos7并使用Xshell连接Centos
一.CentOS 使用VMware虚拟机如何上网 1.宿主机的虚拟网关VMnet8的IP设置为自动获取. (1)打开控制面板:“控制面板” ---> “网络和 Internet” ---&g ...
Delphi--最强大的开发工具(欢迎转载)
最强大的开发工具 Delphi 目录 --------------------------------------------------------------------------- 前言 De ...
insert执行错误，怎么样获取具体的错误原因
1.开启debug 2.去runtime里面去找最后执行的SQL
libusb开发
转:https://www.cnblogs.com/ele-eye/p/3261970.html
MySQL 检索数据及提高检索速度的方法
检索数据 mysql> SELECT [DISTINCT] 表名.列名,表名.列名,表名.列名 -- 使用通配符*表示所有列 DISTINCT表示返回不同的值 -> FROM 数据库名.表 ...
【UI测试】－－易用性
编译https://github.com/CIR-KIT/steer_drive_ros时出现的问题
解决gazebo对应的protobuf版本问题: I've come across to the same problem. I'm using Ubuntu 16.04, ROS Kinetic a ...
java的nio例子
package main; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.net.Inet ...
RSS工具关注期刊，方便快速获取及时大量的文献信息
第一步: 第二步: 第三步: RSS : 很好的一个东西,到了中国,咋就水土不服了呢...
Flex 确定弹出窗口的绝对位置x , y
var selectbox:Selectbox; selectbox = new SelectBox(); var pt:Point = new Point(0,0); pt = this.paren ...

Hive ORC + SNAPPY

Hive ORC + SNAPPY的更多相关文章

随机推荐

热门专题