kettle教程一
转载:http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply1.html
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。
1、Kettle概念
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
2、下载和部署
3、Kettle环境配置(有Java环境的直接忽略此章节)
3、1 安装java JDK
1)首先到官网上下载对应JDK包,JDK1.5或以上版本就行;
2)安装JDK;
3)配置环境变量,附配置方式:
安装完成后,还要对它进行相关的配置才可以使用,先来设置一些环境变量,对于Java来说,最需要设置的环境变量是系统路径变量path。
(1)要打开环境变量的设置窗口。右击“我的电脑”,在弹出的快捷菜单中选择“属性”选项,进入“系统属性”对话框,如图所示。选择“高级”标签,进入“高级”选项卡,再单击“环境变量”按钮,进入“环境变量”对话框,如图所示:

(2)在“Administrator的用户变量”列表框中,选择变量PATH,待其所在行变高亮后,单击“编辑”按钮,如图所示。
(3)在弹出的“编辑系统变量”对话框中,将JDK安装路径下的bin目录路径设置到Path变量中,如图所示。

编辑完后,单击“确定”按钮,进行保存,环境变量Path的设置就正式完成。
注意:设置Path变量的路径,必须是JDK安装目录中的bin目录,有时候在JDK安装目录的同一层会有JRE的安装目录,因此请谨慎选取相关路径,避免将路径设置成JRE目录下的bin目录。
3、2 测试JDK配置是否成功
设置好环境变量后,就可以对刚设置好的变量进行测试,并检测Java是否可以运行。
(1)单击“开始”按钮,选择“运行”选项,在“运行”对话框中输入cmd命令。
(2)之后单击“确定”按钮,打开命令行窗口。
(3)在光标处输入:javac命令,按下Enter键执行,即可看到测试结果
3、3 运行Kettle

2)创建一个新的job,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb;
| 
 
  | 
 Main Tree菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。 DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。 Steps:一个transformation中应用到的环节列表 Hops:一个transformation中应用到的节点连接列表  | 
 ![]()  | 
 Core Objects菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。 Input:输入环节 Output:输出环节 Lookup:查询环节 Transform:转化环节 Joins:连接环节 Scripting:脚本环节  | 

| 
 类别  | 
 环节名称  | 
 功能说明  | 
| 
 Input  | 
 文本文件输入  | 
 从本地文本文件输入数据  | 
| 
 表输入  | 
 从数据库表中输入数据  | 
|
| 
 获取系统信息  | 
 读取系统信息输入数据  | 
|
| 
 Output  | 
 文本文件输出  | 
 将处理结果输出到文本文件  | 
| 
 表输出  | 
 将处理结果输出到数据库表  | 
|
| 
 插入/更新  | 
 根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断  | 
|
| 
 更新  | 
 根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止  | 
|
| 
 删除  | 
 根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止  | 
|
| 
 Lookup  | 
 数据库查询  | 
 根据设定的查询条件,对目标表进行查询,返回需要的结果字段  | 
| 
 流查询  | 
 将目标表读取到内存,通过查询条件对内存中数据集进行查询  | 
|
| 
 调用DB存储过程  | 
 调用数据库存储过程  | 
|
| 
 Transform  | 
 字段选择  | 
 选择需要的字段,过滤掉不要的字段,也可做数据库字段对应  | 
| 
 过滤记录  | 
 根据条件对记录进行分类  | 
|
| 
 排序记录  | 
 将数据根据某以条件,进行排序  | 
|
| 
 空操作  | 
 无操作  | 
|
| 
 增加常量  | 
 增加需要的常量字段  | 
|
| 
 Scripting  | 
 Modified Java Script Value  | 
 扩展功能,编写JavaScript脚本,对数据进行相应处理  | 
| 
 Mapping  | 
 映射(子转换)  | 
 数据映射  | 
| 
 Job  | 
 Sat Variables  | 
 设置环境变量  | 
| 
 Get Variables  | 
 获取环境变量  | 
| 
 
  | 
 Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。 DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。 Job entries:一个Job中引用的环节列表 
  | 
| 
 
  | 
 Job entries菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。 每一个环节可以通过鼠标拖动来将环节添加到主窗口中。 并可通过shift+鼠标拖动,实现环节之间的连接。  | 
| 
 类别  | 
 环节名称  | 
 功能说明  | 
| 
 Job entries  | 
 START  | 
 开始  | 
| 
 DUMMY  | 
 结束  | 
|
| 
 Transformation  | 
 引用Transformation流程  | 
|
| 
 Job  | 
 引用Job流程  | 
|
| 
 Shell  | 
 调用Shell脚本  | 
|
| 
 SQL  | 
 执行sql语句  | 
|
| 
 FTP  | 
 通过FTP下载  | 
|
| 
 Table exists  | 
 检查目标表是否存在,返回布尔值  | 
|
| 
 File exists  | 
 检查文件是否存在,返回布尔值  | 
|
| 
 Javascript  | 
 执行JavaScript脚本  | 
|
| 
 Create file  | 
 创建文件  | 
|
| 
 Delete file  | 
 删除文件  | 
|
| 
 Wait for file  | 
 等待文件,文件出现后继续下一个环节  | 
|
| 
 File Compare  | 
 文件比较,返回布尔值  | 
|
| 
 Wait for  | 
 等待时间,设定一段时间,kettle流程处于等待状态  | 
|
| 
 Zip file  | 
 压缩文件为ZIP包  | 
kettle教程一的更多相关文章
- CRL快速开发框架系列教程一(Code First数据表不需再关心)
		
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
 - NGUI系列教程一
		
NGUI是Unity的一个插件,使用它来制作你的游戏UI必定将事半功倍.为什么这么说呢?首先我们说说GUI与NGUI的区别,GUI是Unity自带的绘制界面工具,它的成像原理是基于表层的,所以执行效率 ...
 - Quartz教程一:使用quartz
		
原文链接 | 译文链接 | 翻译:nkcoder | 校对:方腾飞 本系列教程由quartz-2.2.x官方文档翻译.整理而来,希望给同样对quartz感兴趣的朋友一些参考和帮助,有任何不当或错误之处 ...
 - redis学习教程一《Redis的安装和配置》
		
redis学习教程一<Redis的安装和配置> Redis的优点 以下是Redis的一些优点. 异常快 - Redis非常快,每秒可执行大约110000次的设置(SET)操作,每秒大约可执 ...
 - Cobalt Strike使用教程一
		
Cobalt Strike使用教程一 0x00 简介 Cobalt Strike是一款基于java的渗透测试神器,常被业界人称为CS神器.自3.0以后已经不在使用Metasploit框架而作为 ...
 - Activiti5.10简易教程一
		
Activiti5.10简易教程一 一搭建环境 1.1 JDK 6+ activiti 运行在版本 6 以上的 JDK 上.转到 Oracle Java SE 下载页面,点击按钮“下载 JDK ” ...
 - 无废话SharePoint入门教程一[SharePoint概述]
		
一.前言 听说SharePoint也有一段时间了,可一直处在门外.最近被调到SharePoint实施项目小组,就随着工作一起学习了一下实施与开发.但苦于网上SharePoint入门的东西实在太少,导致 ...
 - JavaScript 进阶教程一 JavaScript 中的事件流 - 事件冒泡和事件捕获
		
先看下面的示例代码: <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>Jav ...
 - MVC5 + EF6 入门完整教程一:从0开始
		
第0课 从0开始 ASP.NET MVC开发模式和传统的WebForm开发模式相比,增加了很多"约定". 直接讲这些 "约定" 会让人困惑,而且东西太多容易忘记 ...
 
随机推荐
- HashMap源码学习
			
HashMap就是将key做hash算法,然后将hash值映射到内存地址,直接取得key所对应的数据. 关于hash算法的原理知识在之前的博客中有讲到:哈希表之一初步原理了解. 在Java中的Hash ...
 - ctags简易用法
			
vim + ctags a 首先我们必需给要阅读的原始码建一个或多个tags文件, 在shell下利用ctags命令给单个文件建立tags如下: $ ctags filename.c 要给同一个目录下 ...
 - java.io.BufferedOutputStream 源码分析
			
BufferedOutputStream 是一个带缓冲区的输出流,通过设置这种输出流,应用程序就可以字节写入到缓冲区中,当缓冲区满了以后再调用底层系统,而不必针对每次字节写入调用底层系统,从而提高系 ...
 - libevent简述
			
libevent是一个轻量级的基于事件驱动的高性能的开源网络库,并且支持多个平台,对多个平台的I/O复用技术进行了封装,当我们编译库的代码时,编译的脚本将会根据OS支持的处理事件机制,来编译相应的代码 ...
 - Linux下LDAP统一认证解决方案
			
Linux下LDAP统一认证解决方案 --http://www.cangfengzhe.com/wangluoanquan/3.html 转自:http://www.cnblogs.com/MYSQL ...
 - JavaScript prototype背后的工作原理
			
首先从一个函数说起 function fn1(name, age) { this.name = name; this.age = age; this.say = function() { alert( ...
 - python-s and s.strip()
			
s and s.strip()“ 这个表达式的值.Python语法是这么运行的: 如果s is None,那么s会被判断为False.而False不管和什么做and,结果都是False,所以不需要看a ...
 - Python中的高级turtle(海龟)作图
			
在Python里,海龟不仅可以画简单的黑线,还可以用它画更复杂的几何图形,用不同的颜色,甚至还可以给形状填色. 一.从基本的正方形开始 引入turtle模块并创建Pen对象: >>> ...
 - 第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
			
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门 我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
 - Mac 创建证书(以 创建gdb证书 为例  )
			
open /Applications/Utilities/Keychain\ Access.app/ 打开 钥匙串访问 继续继续 创建完毕. Now that we have a certificat ...
 
			
		


