ETL实践--kettle转到hive
ETL实践--kettle只做源数据的抽取,其他数据转换转到hive上。
1、用hive代替kettle的数据关联的原因
(1)、公司之前的数据ELT大量使用了kettle。用kettle导原始数据速度还是蛮快的,但是如果是大表关联类的操作,效率就很差。
一方面是由于hive是用数据库来做关联,数据库的性能跟不上;另外一个方面也是数据要从数据库抽取到kettle,处理完之后还要写回数据库,走了2此网络。
(2)、公司目前非实时的大数据查询主要是再kylin上,kylin的数据源就是hive,所以我们现在就有用到hive。拿到的数据最后还是要导入到hive上给kylin用。
(3)、hive底层是mr,对大数据的关联比数据库性能要高很多。同时hive的hql也是类似sql的。hql实现不了的,还可以通过UDF来实现(java代码大家总是可以搞定的)。
2、下面演示一个我从kettle迁移到hive的数据关联
(1)、sql大致的需求
把数据发生的时间提前6个小时,然后按照这个新的时间所在的天和学号一起分组,按照这个新的(提前6个小时的)时间排序取第一条记录。
后面还有一些其他的条件:比如增量更新的时间判断,还有新的 时间要小于 '17:30:00'这个点。
(2)、原始kettle任务(的sql)
SELECT
b.TermID,b.OutId,b.OpDT,b.subsixhour,concat(b.subsixhour,b.OutId) as temp
FROM
(
SELECT
a.*
FROM
(SELECT
id
, TermID
, OutId
, OpDT
, ioflag
,date_sub(OpDT,interval 6 HOUR) as subopdt
,DATE_FORMAT(date_sub(OpDT,interval 6 HOUR),"%Y-%m-%d") as subsixhour
FROM access_record
where OpDT >? and OpDT <=? and OutId is not null
ORDER BY subopdt desc) a
GROUP BY a.subsixhour,a.OutId
)b
WHERE b.ioflag = 1 AND DATE_FORMAT(b.subopdt,"%H:%i:%S") < '17:30:00'
(3)、改造后的kettle任务的sql(只抽取原始数据)
SELECT
b.*,date_sub(b.OpDT,interval 6 HOUR) as subopdt,DATE_FORMAT(date_sub(b.OpDT,interval 6 HOUR),"%Y-%m-%d") as subsixhour
FROM access_record b
where b.OpDT >? and b.OpDT <=? and b.OutId is not null
特别说明:
这里date_sub(b.OpDT,interval 6 HOUR) as subopdt这个格式化字段的操作,再hive里面没有找到对应的函数。
本来是准备通过写一个UDF来解决的,结果没有调通,所以格式化字段这个操作暂时还放在了kettle里面。
(4)、建立hive表(上一步导入的数据就再这个表里)
create external table access_record
(id int,
TermID int,
ExtendTermID int,
CustomerID int,
CardNo int,
OutId string,
CardSNR string,
OpDT TIMESTAMP,
CollDT TIMESTAMP,
RecType int,
AccCode int,
HZ int,
RecNo int,
FrameNo int,
IsUpload int,
CollectType int,
CardType int,
ioflag int,
CardSNR16 string,
name string,
cellphoneno string,
subopdt TIMESTAMP,
subsixhour date)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE location '/jkd/access_record1';
(6)、新建hive视图,用于数据关联(建视图是为了kylin可以直接查询这个视图,及时获取到关联好的数据)
CREATE or replace VIEW view_access_record_out AS
SELECT
a.TermID,a.OutId,a.OpDT,a.subsixhour,concat(a.subsixhour,a.OutId) as temp
FROM
(SELECT
id
, TermID
, OutId
, OpDT
, ioflag
,subopdt
,subsixhour,
row_number() over (partition by subsixhour,OutId order by subopdt desc) rowNum
FROM access_record
) a
where a.rowNum=1 and a.ioflag = 1 AND DATE_FORMAT(a.subopdt,"HH:mm:ss") < '17:30:00'
ETL实践--kettle转到hive的更多相关文章
- ETL实践--Spark做数据清洗
ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联.是为了提高效率. 本文要说的spark就不光是为了效率的问题. 1.用spark的原因 (如果是一个sql能搞定 ...
- 可用于Hadoop下的ETL工具——Kettle
看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle. Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做 ...
- ETL利器Kettle
ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析 ...
- ETL利器Kettle实战应用解析系列一【Kettle使用介绍】
本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析系列二 [应用场景和实战DEMO下载] 三.ETL利器Kettle ...
- (转载)ETL利器Kettle实战应用解析系列一【Kettle使用介绍】
http://www.cnblogs.com/limengqiang/archive/2013/01/16/kettleapply1.html ETL利器Kettle实战应用解析系列一[Kettle使 ...
- 开源ETL工具kettle系列之常见问题
开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
- ETL利器Kettle实战应用解析系列三
本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析系列二 [应用场景和实战DEMO下载] 三.ETL利器Kettle ...
- ETL利器Kettle实战应用解析系列二
本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析系列二 [应用场景和实战DEMO下载] 三.ETL利器Kettle ...
- ETL工具--kettle篇(17.10.09更新)
ETL是EXTRACT(抽取).TRANSFORM(转换).LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块.当前知道的 ...
随机推荐
- 基于Office 365的随需应变业务应用平台
作者:陈希章 发表于 2017年9月7日 这是我去年10月底在微软技术大会(Microsoft Ignite 2016) 上面的演讲主题,承蒙大家抬爱,也沾了前一场明星讲师的光,我记得会场几乎是满座. ...
- css实现垂直水平居中的5种方法
css实现垂直水平居中的5种方法 给父元素设置table-cell,text-align,vertical-align #big{ width: 200px; height: 200px; borde ...
- Elasticsearch全文搜索——adout
现在尝试下稍微高级点儿的全文搜索——一项传统数据库确实很难搞定的任务. 搜索下所有喜欢攀岩(rock climbing)的雇员: curl -XGET 'localhost:9200/megacorp ...
- 自学Zabbix3.5.5-监控项item-User parameters(自定义key)
为什么要自定义KEY,即User parameters功能 有时候我们想让被监控端执行一个zabbix没有预定义的检测,zabbix的用户自定义参数功能提供了这个方法.我们可以在客户端配置文件zabb ...
- 聚集索引VS非聚集索引
聚集索引VS非聚集索引 SQL Server 2014 发布日期: 2016年12月 索引是与表或视图关联的磁盘上结构,可以加快从表或视图中检索行的速度. 索引包含由表或视图中的一列或多列生成的键. ...
- Jenkins in OpenCASCADE
Jenkins in OpenCASCADE eryar@163.com Abstract. Jenkins是一个开源软件项目,是基于Java开发的一个持续集成工具,用于监控持续复制的工作,旨在提供一 ...
- 解决iOS手势冲突问题
今天在做一个效果的时候,由于子视图和父视图都有响应的事件,子视图的事件理所当然被父视图拦截掉了,接下来就做分析解决 1. tableviewcell可以触发点击,同时tableview的父视图有点击 ...
- Python 初体验
2017的最后一天,在QC的谆谆教诲下,我终于写(背)了九道题,对Python的基本语法有了一个大致了解. 1.A+B+C 就是为了练输入,line=input().split() 录入列表,分割开 ...
- flask 分页
在我们学习的过程中会遇到这么样的问题,就是在我们学习的过程中会发现需要分页处理,这里呢,给大家介绍书上说的分页. @app.route('/',methods=['GET']) @app.route( ...
- JAVA 用数组实现 ArrayList
我们知道 ArrayList 是一个集合,它能存放各种不同类型的数据,而且其容量是自动增长的.那么它是怎么实现的呢? 其实 ArrayList 的底层是用 数组实现的.我们查看 JDK 源码也可以发现 ...