hive中拉链表

在有些情况下，为了保持历史的一些状态，需要用拉链表来做，这样做目的在可以保留所有状态的情况下可以节省空间。

拉链表适用于以下几种情况吧

数据量有点大，表中某些字段有变化，但是呢变化的频率也不是很高，业务需求呢又需要统计这种变化状态，每天全量一份呢，有点不太现实，

不仅浪费了存储空间，有时可能业务统计也有点麻烦，这时，拉链表的作用就提现出来了，既节省空间，又满足了需求。

一般在数仓中通过增加begin_date,en_date来表示，如下例，后两列是start_date和end_date.

1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21

1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31

2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31

3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21

3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31

4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21

4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31

5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

begin_date表示该条记录的生命周期开始时间，end_date表示该条记录的生命周期结束时间；

end_date = ‘9999-12-31’表示该条记录目前处于有效状态；

如果查询当前所有有效的记录，则select * from order_his where dw_end_date = ‘9999-12-31′

如果查询2016-08-21的历史快照，则select * from order_his where begin_date <= ‘2016-08-21′ and end_date >= ‘2016-08-21’

再简单介绍一下拉链表的更新：

假设以天为维度，以每天的最后一个状态为当天的最终状态。

以一张订单表为例，如下是原始数据，每天的订单状态明细

1	2016-08-20	2016-08-20	创建

2	2016-08-20	2016-08-20	创建

3	2016-08-20	2016-08-20	创建

1	2016-08-20	2016-08-21	支付

2	2016-08-20	2016-08-21	完成

4	2016-08-21	2016-08-21	创建

1	2016-08-20	2016-08-22	完成

3	2016-08-20	2016-08-22	支付

4	2016-08-21	2016-08-22	支付

5	2016-08-22	2016-08-22	创建

根据拉链表我们希望得到的是

1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21

1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31

2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31

3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21

3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31

4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21

4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31

5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

可以看出 1，2，3，4每个订单的状态都有，并且也能统计到当前的有效状态。

本例以hive为例，只考虑到实现，与性能无关

首先创建表

CREATE TABLE orders (

orderid INT,

createtime STRING,

modifiedtime STRING,

status STRING

) row format delimited fields terminated by '\t' 

CREATE TABLE ods_orders_inc (

orderid INT,

createtime STRING,

modifiedtime STRING,

status STRING

) PARTITIONED BY (day STRING)

row format delimited fields terminated by '\t' 

CREATE TABLE dw_orders_his (

orderid INT,

createtime STRING,

modifiedtime STRING,

status STRING,

dw_start_date STRING,

dw_end_date STRING

) row format delimited fields terminated by '\t' ;

首先全量更新，我们先到2016-08-20为止的数据。

初始化，先把2016-08-20的数据初始化进去

INSERT overwrite TABLE ods_orders_inc PARTITION (day = '2016-08-20')

SELECT orderid,createtime,modifiedtime,status

FROM orders

WHERE createtime < '2016-08-21' and modifiedtime <'2016-08-21';

刷到dw中

INSERT overwrite TABLE dw_orders_his

SELECT orderid,createtime,modifiedtime,status,

createtime AS dw_start_date,

'9999-12-31' AS dw_end_date

FROM ods_orders_inc

WHERE day = '2016-08-20';

如下结果

select * from dw_orders_his;

OK

1  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31

2  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31

3  2016-08-20  2016-08-20  创建 2016-08-20  9999-12-31

剩余需要进行增量更新

INSERT overwrite TABLE ods_orders_inc PARTITION (day = '2016-08-21')

SELECT orderid,createtime,modifiedtime,status

FROM orders

WHERE (createtime = '2016-08-21'  and modifiedtime = '2016-08-21') OR modifiedtime = '2016-08-21';

select * from ods_orders_inc where day='2016-08-21';

OK

1  2016-08-20  2016-08-21  支付 2016-08-21

2  2016-08-20  2016-08-21  完成 2016-08-21

4  2016-08-21  2016-08-21  创建 2016-08-21

先放到增量表中，然后进行关联到一张临时表中，在插入到新表中

DROP TABLE IF EXISTS dw_orders_his_tmp;

CREATE TABLE dw_orders_his_tmp AS

SELECT orderid,

createtime,

modifiedtime,

status,

dw_start_date,

dw_end_date

FROM (

    SELECT a.orderid,

    a.createtime,

    a.modifiedtime,

    a.status,

    a.dw_start_date,

    CASE WHEN b.orderid IS NOT NULL AND a.dw_end_date > '2016-08-21' THEN '2016-08-21' ELSE a.dw_end_date END AS dw_end_date

    FROM dw_orders_his a

    left outer join (SELECT * FROM ods_orders_inc WHERE day = '2016-08-21') b

    ON (a.orderid = b.orderid)

    UNION ALL

    SELECT orderid,

    createtime,

    modifiedtime,

    status,

    modifiedtime AS dw_start_date,

    '9999-12-31' AS dw_end_date

    FROM ods_orders_inc

    WHERE day = '2016-08-21'

) x

ORDER BY orderid,dw_start_date;

INSERT overwrite TABLE dw_orders_his

SELECT * FROM dw_orders_his_tmp;

在根据上面步骤把2016-08-22号的数据更新进去，最后结果如下

select * from dw_orders_his;

OK

1  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

1  2016-08-20  2016-08-21  支付 2016-08-21  2016-08-21

1  2016-08-20  2016-08-22  完成 2016-08-22  9999-12-31

2  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-20

2  2016-08-20  2016-08-21  完成 2016-08-21  9999-12-31

3  2016-08-20  2016-08-20  创建 2016-08-20  2016-08-21

3  2016-08-20  2016-08-22  支付 2016-08-22  9999-12-31

4  2016-08-21  2016-08-21  创建 2016-08-21  2016-08-21

4  2016-08-21  2016-08-22  支付 2016-08-22  9999-12-31

5  2016-08-22  2016-08-22  创建 2016-08-22  9999-12-31

至此，就得到了我们想要的数据。

hive中拉链表的更多相关文章

hive拉链表
前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理.设计.以及在我们大数据场景下的实现方式. 全文由下面几个部分组成:先分享一下拉链表的用途.什么是拉链表.通过一些小的使用场景来对拉链表做 ...
hive拉链表取数
例如,一个借款用户在hive上的拉链表.(end_dt存放逻辑与普通介绍的拉链表不一致) 需要拉去它在2019-05-01日的状态, 取数逻辑是: select * from tb where sta ...
Hive 建外链表到 Hbase（分内部表、外部表两种方式）
一. Hive 建内部表,链到hbase :特点:Hive drop表后,Hbase 表同步删除 drop table if exists hbase_kimbo_test1;CREATE TABLE ...
hive拉链表以及退链例子笔记
拉链表设计: 在企业中,由于有些流水表每日有几千万条记录,数据仓库保存5年数据的话很容易不堪重负,因此可以使用拉链表的算法来节省存储空间. 例子: -- 用户信息表; 采集当日全量数据存储到 (当日 ...
漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理.设计.以及在我们大数据场景下的实现方式. 全文由下面几个部分组成: 先分享一下拉链表的用途.什么是拉链表. 通过一些小的使用场景来对拉链表做近 ...
Hive-拉链表
一.问答介绍 1.什么是拉链表? 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户 ...
SparkStreaming+Kafka 处理实时WIFI数据
业务背景技术选型 Kafka Producer SparkStreaming 接收Kafka数据流基于Receiver接收数据直连方式读取kafka数据 Direct连接示例使用Zookeep ...
hive 汇率拉链表转日连续流水表
1.什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史.记录一个事物从开始,一直到当前状态的所有变化的信息. 我们先看一个示例,这就是一张拉链表,存储的 ...
hive 历史拉链表的处理
1. CREATE TABLE lalian_test(id int,col1 string,col2 string,dt string)--测试表COMMENT 'this is a test2' ...

随机推荐

Play with docker 1.12
Docker v1.12 brings in its integrated orchestration into docker engine. Starting with Docker 1.12, w ...
LeetCode "477. Total Hamming Distance"
Fun one.. the punch line of this problem is quite common in Bit related problems on HackerRank - vis ...
<<测试驱动开发的艺术>>读书笔记
TDD通过边测试边编写代码,然后重构来防止重构所引起的错误通过自动化测试和持续集成工具,随时保持可以发布 TDD第一步: 1. 需求分解 2. 将需求转化成测试 3. 写一个失败的测试 4. 逐步通 ...
vmware12无法打开内核设备“\\.\Global\vmx86”
vmware12 无法打开内核设备"\\.\Global\vmx86": 系统找不到指定的文件.你想要在安装 VMware Workstation 前重启吗? 打开vmware12 ...
Zedboard安装桌面系统ubuntu及opencv（2）
接上一篇,下面安装opencv. 一般都是参照陆佳华那本白色封皮的<软硬件协同设计>,但是不得不说这本书实在太粗糙了,很多的细节都没有说明. 首先,在PC和这块板子的方法是一样的,所以PC ...
OAF_开发系列27_实现OAF中Java类型并发程式开发调用XML Publisher（案例）
20150814 Created By BaoXinjian
Android zxing 解析二维码，生成二维码极简demo
zxing 官方的代码很多,看起来很费劲,此demo只抽取了有用的部分,实现了相机预览解码,解析本地二维码,生成二维码三个功能. 简化后的结构如下: 废话少说直接上代码: BaseDecodeHand ...
JavaScript的学习2
1. a.字符串运算符符号功能 + 字符串连接 += 将左边的值加上右边的值然后再赋值给左边的变量 b.比较运算符运算符含义说明 > 大于 M>N,当M大于N时,返回TRUE ...
Java实现购物车功能：方式一：存放在session中.方式二:存储在数据库中
//将购物车产品加入到cookie中,方式同浏览记录.Java实现购物车,方式一(简易版):存储在session中.这种方式实现还不严谨,大家看的时候看思路即可.(1). JSP页面中,选择某一款产品 ...
【node】使用gulp来维护网站项目
基本参照此:http://www.gulpjs.com.cn/docs/getting-started/ 1.电脑需要安装好nodejs,安装好的时候会自带npm 2.在命令行中执行命令安装gulp ...

hive中拉链表

hive中拉链表的更多相关文章

随机推荐

热门专题