Kettle基本使用
Kettle基本使用
Kettle的几个子程序的功能和启动方式
Spoon.bat 图形界面方式启动作业和转换设计器。
Pan.bat 命令行方式执行转换。
Kitchen.bat 命令行方式执行作业。
Carte.bat 启动web服务,用于Kettle的远程运行或集群运行。
Encr.bat 密码加密。
转换和作业
Kettle的Spoon.bat设计器用来设计转换(Transformation)和作业(job)。
- 转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step)。
- 作业是比转换更高一级的处理流程,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,转换也是一个工作项。
###输入、输出、转换、过滤、字段选择、连接###
Kettle资源库—元数据
元数据的通用概念:
- “描述性数据”或“数据的数据”
ETL的元数据:
- 描述ETL要执行的任务
在Kettle里元数据的存储方式:
- 资源库
资源库宝库文件资源库,数据库资源库
Kettle资源库类型可以插件扩展
- XML文件
.ktr转换文件的XML的根节点必须是<transformation>
.kjb作业XML的根节点是<job>
Kettle资源库—资源库类型
数据库资源库:
- 把Kettle的元数据串行化到数据库中,如R_TRANSFORMATION表保存了Kettle转换的名称、描述等属性。
- 在Spoon里创建和升级数据资源库
文件资源库:
在文件的基础上的封装,实现了org.pentaho.di.respositpory.Repository接口。
是Kettle4.0以后版本里增加的资源库类型
不使用资源库:
直接保存为 ktr 或 kjb 文件。
Kettle资源库—如何选择资源库?
数据库资源库的缺点:
- 不能存储转换或作业的多个版本。
- 严重依赖于数据库的锁机制来防止工作丢失。
- 没有考虑到团队,开发人员不能锁住某个作业自己开发。
文件资源库的缺点:
- 对象(如转换、作业、数据库连接等对象)之间的关联关系难以处理,所以删除,重命名等操作会比较麻烦。
- 没有版本历史。
- 难以进行团队开发。
不使用资源库:
使用SVN进行文件版本控制。
参考:
Kettle企业资源库:基于Apache Jackrabbit 的CMS系统。
Kettle资源库—管理资源库
ETL开发的几个阶段:
开发、测试、确认、发布
各个阶段对应的资源库:
开发资源库、测试(确认)资源库、发布资源库
各阶段推进
1.从开发资源库带测试资源库:
注意命名规则。
由一个人统一发布,避免冲突。
两种移植方法:断开重连、导入/导出。
2.从测试(确认)资源库到发布资源库:导入/导出
不使用资源库
SVN版本控制,测试打tag,发布建branch
Kettle资源库—参数化
为什么要参数化:
在资源库之间移植作业时,因为各个阶段的环境不一样,在作业里使用的数据库连接等元数据不能硬编码。
参数化的几个方法:
- kettle.properties,文件位于java的user.home目录下
- 自定义properties文件,通过 属性文件输入 步骤读取。
- 使用参数表
参数表的结构
Environment parameter_name parameter_value valid_from valid_to
Dev host_name localhost 2011-01-01 2099-01-01
Test host_name 192.168.12.10 2011-01-01 2013-05-01
Test hose_name 192.168.12.11 2011-05-02 2099-01-01
Kettle运行方式—几中运行方式
图形化界面:Spoon
命令行:Pan、Kitchen
API:Kettle Java API 嵌入到其它应用
Kettle运行方式—Spoon
本地:在本地执行
远程:在远程服务执行,需要远程服务器执行Carte。
- Carte是内嵌Jetty的 http server。
- Carte执行命令 carte localhost 80080
集群:在集群上执行,需要转换里的某个步骤实现设置为集群方式运行。
Kettle基本使用的更多相关文章
- 大量数据快速导出的解决方案-Kettle
1.开发背景 在web项目中,经常会需要查询数据导出excel,以前比较常见的就是用poi.使用poi的时候也有两种方式,一种就是直接将集合一次性导出为excel,还有一种是分批次追加的方式适合数据量 ...
- 数据仓库开发——Kettle使用示例
Kettle是一个开园ETL工具,做数据仓库用Spoon. 工具:下载Spoon,解压即可用 1.认识常用组件: 表输入 插入\更新 数据同步 文本文件输出 ...
- kettle中含有参数传递的定时任务
(1)新建一个作业(新建->作业),并在控制面板右键: (2)设置一个命令参数: (3)把作业的参数传递给转换: (4)在转换中右键设置转换属性: (5)接收作业中设置的传递参数: (6)参数的 ...
- kettle中全局变量的设置
设置全局变量. 找到.properties文件: 在文件中设置值: 在kettle中新建一个job(不用做任何设置): 转换中获取便元的设置: 重启kettle的执行结果:
- kettle中变量的设置和使用介绍
有没有能统一管理一个参数,然后让所有的transformation和job都可以读到呢? 答案是有 1.首先,打开.kettle\kettle.properties(个人主机是:C:\Users\fo ...
- kettle将Excel数据导入oracle
导读 Excel数据导入Oracle数据库的方法: 1.使用PL SQL 工具附带的功能,效率比较低 可参考这篇文章的介绍:http://www.2cto.com/database/201212/17 ...
- kettle转换和作业插件开发及调试
这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程.结果各种理由,一推再推.今天索性将这篇文档发布出来,分享给大家,例子等有空再补上.这是一篇基于kettle3.2基础上完成 ...
- kettle系列-[KettleUtil]kettle插件,类似kettle的自定义java类控件
该kettle插件功能类似kettle现有的定义java类插件,自定java类插件主要是支持在kettle中直接编写java代码实现自定特殊功能,而本控件主要是将自定义代码转移到jar包,就是说自定义 ...
- kettle系列-kettle管理平台部署说明
本介绍我的开源项目[kettle-manager]kettle管理平台如何获取并部署使用,该项目介绍请参看另一篇博文:http://www.cnblogs.com/majinju/p/5739820. ...
- kettle系列-我的开源kettle管理平台[kettle-manager]介绍
kettle管理工具 专门为kettle这款优秀的ETL工具开发的web端管理工具. 项目简介 kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操作管理,但问题 ...
随机推荐
- 21天学通PythonPDF高清完整版免费下载|百度云盘
百度云盘:21天学通PythonPDF高清完整版免费下载 提取码:nqa9 豆瓣评分: 书籍封面: 内容简介 · · · · · · <21天学通Python>全面.系统.深入地讲解了P ...
- python基础--小数据池,代码块的最详细、深入剖析
本文转至太白金星 一,id,is,== 在Python中,id是什么?id是内存地址,那就有人问了,什么是内存地址呢? 你只要创建一个数据(对象)那么都会在内存中开辟一个空间,将这个数据临时加在到内存 ...
- matplotlib基础汇总_01
灰度化处理就是将一幅色彩图像转化为灰度图像的过程.彩色图像分为R,G,B三个分量,分别显示出红绿蓝等各种颜色,灰度化就是使彩色的R,G,B分量相等的过程.灰度值大的像素点比较亮(像素值最大为255,为 ...
- PDO::lastInsertId
PDO::lastInsertId — 返回最后插入行的ID或序列值(PHP 5 >= 5.1.0, PECL pdo >= 0.1.0) 说明 语法 string PDO::lastIn ...
- 教你在 Linux 下时光穿梭
时光穿梭?电影里的桥段吧?良许你又在唬人? 非也非也,良许在这里要给大家介绍 touch 命令,有了它你就可以改变时间戳,达到时光穿梭的目的. touch 命令在我们的工作中使用也相当频繁,我们就由浅 ...
- CMD使用笔记
CMD杂谈 基本功: 1,列出所有任务及进程号,杀进程 tasklist tasklist /? 获取使用帮助 taskkill taskkill /? 获取使用帮助 2,cd 切换目录 cd ...
- Spark中直接操作HDFS
Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合.Spark可以直接操作存储在HDFS上面的数据: 通过Hadoop方式操作已经存在的文件目录 ...
- [转]Java 逃逸分析
作者:栈长 公众号:Java技术栈 记得几年前有一次栈长去面试,问到了这么一个问题:Java中的对象都是在堆中分配吗?说明为什么! 当时我被问得一脸蒙逼,瞬间被秒杀得体无完肤,当时我压根就不知道他在 ...
- 01-java开发环境配置
1 JDK.JRE.JVM的关系 JDK: java开发工具包 JRE: java运行时环境 JVM: java虚拟机 2 JDK下载 方式一:官网 方式二:该链接提供jdk1.6 ,jdk1.7 , ...
- Elasticsearch权威指南(中文版)
Elasticsearch权威指南(中文版) 下载地址: https://pan.baidu.com/s/1bUGJmwS2Gp0B32xUyXxCIw 扫码下面二维码关注公众号回复100010 获取 ...