ETL工具--kettle篇（17.10.09更新）

　　ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论。）。

　　内容有：认识kettle、安装kettle、简单入门实例、进阶实例、Linux中kettle部署、kettle发邮件、常见错误

　　认识kettle

　　kettle是纯java开发，开源的etl工具。可以在Linux、windows、unix中运行。有图形界面，也有命令脚本还可以二次开发。（官方社区：http://forums.pentaho.com/；官网wiki：http://wiki.pentaho.com/display/COM/Community+Wiki+Home；源码地址：https://github.com/pentaho/pentaho-kettle）

　　安装kettle

　　1、kettle是基于java开发的，所以需要java环境（下载jdk：http://www.oracle.com/technetwork/java/javase/downloads/jdk9-downloads-3848520.html）

　　2、kettle使用时，需要访问相关的关系型数据库，则需要下载对应的链接驱动。比如我们访问MySQL，则下载相应的驱动解压后放入kettle文件的lib目录下

　　3、下载kettle并解压到自定义位置。kettle其实是以前的叫法，现在官方称为：PDI(Pentaho Data Integeration)。在windows中，双击目录中的Spoon.bat启动kettle.

　　简单的kettle实例

　　1、新建作业/转换（功能区：文件 --> 新建 --> 作业；新建-->转换）

　　　　一个作业（job，文件以kjb结尾）的主体是转换（transform，以ktr结尾），job主要来设置调度，可以有影子拷贝，任一拷贝信息修改所有拷贝的都被修改；transform做主体的内容，控件名称唯一。

　　2、三个控件（start、转换、成功）和流程线（hop）；

　　　　start：job开始的地方，可以设置开始的时间、频率、周期等（但要求kettle不能关闭，有点挫）

　　　　转换：后续详解

　　　　成功：job结束

　　　　流程线：关联两个控件（实体），指定数据流。同时还可以设置是否可用、分发模式、错误输出等；添加方式：按住shift进行鼠标拖动

　　3、转换的工作

　　　　新建的转换：job中需引用该转换文件

　　　　加入我们现在要同步MySQL中的一张表。在转换中要有输入和输出。

　　　　> 表输入：先配置链接（完成后测试一下是否OK），再输入查询sql（比如：select id from tab2 limit 10;）

　　　　>excel输出。，指定输出路径

　　　　> 完成转换的配置后保存，在job中引用保存的文件。我们来跑一下吧~

　　　　> 完成，结束！

　　　　进阶实例：

　　　　百度上看到了一篇关于kettle的作业，但是没有详细的过程。这里以此说明，全图过程如下。

　　　　作业说明：生成 100 个随机数，随机数取值于[0，100）之间，计算小于等于 50 的随机数个数和大于50 的随机数个数。并把这两个统计数字放在数据库表的一行的两列中，即输出的结果有一行，一行包括两列，每列是一个统计值。

　　　　第一步：生成随机数（输入-->生成随机数；需要生成100个随机数，右击控件，选择"改变开始开始...数量"为100）

　　　　第二步：增加常量（转换-->增加常量；给变量取个名称，类型和值。）

　　　　第三步：计算器（转换-->计算器；给出你的计算逻辑和计算出的字段；）

　　　　第四步：两个分支，一个输出；一个过滤；输出指定Excel，并执行数据发送模式（√：复制发送模式）

　　　　第五步：设置过滤（流程-->过滤记录）；并双击控件填写对应的条件；

　　　　第六步：分组（统计-->分组），双击控件后有两个需要关注，一个是分组（相当于group by）；一个是聚合（相当于count、sum等函数）

　　　　第七步：记录关联（连接-->记录关联（笛卡尔输出））；这是一个join操作，但是没有on条件；但是控件中提供了sql中where条件的刷选

　　　　第八步：输出

　　　　Linux上部署kettle任务

　　　　kettle的"开始"控件虽然可以进行调度，但要求程序一直运行。在实际工作中通常在windos中测试，放到Linux中以crontab的方式进行调度。在Linux中以kitchen.sh执行job任务，pan.sh执行transform任务；这里我们以上面为实例，如何在Linux中进行部署。

　　　　第一步：通过WinSCP将kettle拷贝到Linux中，在拷贝路径中执行. kitchen.sh ，如果有参考消息输出则没有问题

　　　　第二步：对于已在windos中执行成功的地址、文件名、用户等参数进行变量替换。执行export KETTLE_HOME=/home/shj，会生成/home/shj/.kettle目录，通过编辑目录下的kettle.properties文件来设置变量。实例中，我们仅仅需要替换两个输出文件的地址为变量即可。

　　　　第三步：修改kettle目录下的.sh文件权限为可执行（chmod a+x *.sh）；并执行文件。

　　　　这里说明：/norep：表示不往资源库中写日志，Do not log into the repository

　　　　　　　　 /file：使用文件，The filename (Job XML) to launch

　　　　第四步：验证结果。

　　　　kettle中发送邮件

　　　　kettle发送邮件还是比较简单的，我们需要一个邮件发送的控件和对应的账号密码等自有信息

　　　　简单的流程：

　　　　需要配置发送邮件控件：

　　　　这样执行后，邮件就发送出去了。那么如何在kettle生产中利用邮件功能呢？我们可以将kettle的转换信息、统计信息、错误信息以文件的形式放入到指定的位置（或形成指定的参数），使用邮件以附件形式发送这些信息。

　　　　流程：

　　　　1、这里我们新增控件：添加文件到结果文件中；配置转换中的输出的文件

　　　　2、发送邮件中我们增加附件的配置，如下图

　　　　补充：如果觉得kettle发送的正文信息太多，可以配置邮件信息中，只发送邮件注释（注释信息需要自己写，如果是动态的话需要开发）

　　　　常见错误

　　　　第一种：Timestamp：Unable to get timestamp from resultset at index 3**，如图。这个错误需要在db链接的选线中设置命令参数zeroDateTimeBehavior（值：convertToNull ）

　　　　第二种：字段的空被替换成了null值。这是kettle默认的设置，需要我们在kettle.properties中增加设置（KETTLE_EMPTY_STRING_DIFFERS_FROM_NULL=Y）。

　　　　补充，在设计流程时我们并不希望出错了作业就停止了，而是继续执行并将错误信息以某种方式反馈出来。这时，我们可以通过“定义错误处理”来实现。

　　　　并将错误信息输出，供后续引用。

原创博客，转载请注明出处！欢迎邮件沟通：shj8319@sina.com

ETL工具--kettle篇（17.10.09更新）的更多相关文章

开源ETL工具kettle系列之常见问题
开源ETL工具kettle系列之常见问题摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
可用于Hadoop下的ETL工具——Kettle
看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle. Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做 ...
ETL工具kettle基本使用
1.下载kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.z ...
大数据之ETL工具Kettle的--1功能介绍
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用. ...
ETL工具-KETTLE教程专栏1----术语和定义
1-资源库资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文 ...
ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...
八步学会数据迁移：ETL工具kettle使用方法
一.目的将不同服务器上的表合并到另外一个服务器上.例如:将服务器1上的表A和服务器2上的表B,合并到服务器3上的表C 要求:表A需要被裁剪(去掉不必要的字段).表B需要增加一些字段二.使用方法 ( ...
ETL利器Kettle
ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析 ...
etl学习系列1——etl工具安装
ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可 ...

随机推荐

Sql 关于查俩个表第二个表用到第一个表的某一个数据
今天在写程序的时候遇到一个问题有一个这个需求 select top 1 Name,[Address] from UserInfo;select * from shoppingAddress whe ...
jQuery 数据操作函数（九）
.clearQueue() 从队列中删除所有未运行的项目. .data() 存储与匹配元素相关的任意数据. jQuery.data() 存储与指定元素相关的任意数据. .dequeue() 从队列最前 ...
margin负值的作用
一.左右负margin改变自身宽度当元素不存在width或者width:auto的时候,负margin会增加元素的宽度. html <div class="parent"& ...
mysql自连接求累计金额
【转】Appium的安装-Mac平台（命令行 dmg）
其实Appium的安装方式主要有两种: 1)自己安装配置nodejs的环境,然后通过npm进行appium的安装 2)直接下载官网提供的dmg进行安装,dmg里面已经有nodejs的环境和appium ...
Ajax的请求方式几传参的区别
Get,Post,Put,Delete请求(ajax)方式的不通. http://blog.jobbole.com/99854/
Linux 笔记 #02# Installing MySQL & Installing the Default JRE/JDK
Environment: debian 8 Installing MySQL Reference material: https://linode.com/docs/databases/mysql/h ...
python 中__setattr__, __getattr__,__getattribute__, __call__使用方法
object._getattr_(self, name) 拦截点号运算.当对未定义的属性名称和实例进行点号运算时,就会用属性名作为字符串调用这个方法.如果继承树可以找到该属性,则不调用此方法实例in ...
rjs 合并压缩完 js 后 js 不压缩的问题
线下用 requirejs 开发完后,代码上线前要用 rjs 将多个有依赖关系的 js 文件压成一个,然后某天居然发现压成一个的 js 文件,没有压缩!!!几万行的 js!!! 很显然,是 uglif ...
Grafana最新版本4.3.1安装（后端使用mysql）
环境 CentOS release 6.5 (Final) 64bitzabbix_server (Zabbix) 3.0.3 grafana-4.3.1mysql-5.6.21 一.安装grafan ...

ETL工具--kettle篇（17.10.09更新）

ETL工具--kettle篇（17.10.09更新）的更多相关文章

随机推荐

热门专题