kettle的使用（ETL，数据仓库技术）

本周项目上用到了kettle并且需要做任务调度，听老师说用kettle自带的调度不大稳定于是便baidu了下，参照这篇文章完成了通过kitchen的调度，简单说就是通过windows的计划任务来调用.bat的批处理文件来开始kettle作业。

转自：http://hi.baidu.com/phplinuxmysql/item/f5885685d2397b1cc31627e6

先普及一点知识

Kettle是一个开源的ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程）项目，项目名很有意思，水壶。按项目负责人Matt的说法：把各种数据放到一个壶里，然后呢，以一种你希望的格式流出。Kettle包括三大块：

Spoon——转换/工作(transform/job)设计工具 (GUI方式)

Kitchen——工作(job)执行器 (命令行方式)
Span——转换(trasform)执行器 (命令行方式)

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高

效稳定。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

因为最近工作需要所以不得不研究下调用kitchen.bat后面接参数的问题。

经过一段时间的研究终于知道传参的方法了。

如下：

kitchen.bat 后面可以是-也可以是/然后再加options

Options:
/rep       : Repository name
/user    : Repository username
/pass    : Repository password
/job       : The name of the job to launch
/dir       : The directory (dont forget the leading /)
/file    : The filename (Job XML) to launch
/level    : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing)
/logfile : The logging file to write to
/listdir : List the directories in the repository
/listjobs : List the jobs in the specified directory
/listrep : List the available repositories
/norep    : Do not log into the repository
/version : show the version, revision and build date
/param    : Set a named parameter <NAME>=<VALUE>. For example -param:FOO=bar
/listparam : List information concerning the defined parameters in the specified job.
/export    : Exports all linked resources of the specified job. The argument is the name of a ZIP
file.

而options 后面可以是=也可以是:也可以是空格

kitchen.bat /file d:\ 或者　-file=D:\ 或者/file:D:\等等都可以。。。

定时执行的代码参考如下【原创】，可以执行的实例

1、windows下的执行方式：

建立一个mysql.dat的文件，里面写入

cd D:/Kettle-3.0.2
kitchen.bat /norep -file=D:/kettledata/mysal2orcle.kjb >> kitchen_%date:~0,10%.log
exit

保存文件。

解释一下上面的语句

cd D:/Kettle-3.0.2 这句的含义是跳转到kettle的根目录，因为kitchen.bat 文件在根目录下

kitchen.bat /norep -file=D:/kettledata/mysal2orcle.kjb >> kitchen_%date:~0,10%.log

上面的含义是，使用kitchen.bat 命令来执行job文件，job文件的存放路径是D:/kettledata/mysal2orcle.kjb，并且将执行的结果输出到 kitchen_%date:~0,10%.log文件中。

2、linux下的书写格式：

创建mysqldb.sh

内容如下

cd /home/Kettle-3.0.2 这句的含义是跳转到kettle的根目录，因为kitchen.bat 文件在根目录下
./kitchen.sh -file=/home/etl/mysql.kjb >> /home/etl/log/kettle.log

然后这个文件在crontab中去执行

注意：linux执行shell过程中，由于linux对权限要求很严格，所以kitchen.sh必须有可执行的权限。前面必须加上./，也就是./kitchen.sh才能执行，否则会提示找不到此命令。

kitchen.bat的使用方法：

Kitchen.bat /file:D:\job_name.kjb /level:Basic>>D:\etl.log

使用心得：

1.file和level都是前面有‘/’,后面有‘:’,任何一个都不能丢。

2.此语句要在一行上完成，中间不能有换行符之类的。

博主从昨天就开始调试的几个bat文件，始终不能在我指定的文件里面记日志，一直在dos界面记录，苦思不得其果，偶然的一个把bat文件全屏之后，发现原来语句被换行了，修改到同一行之后可以顺利的运行。

3.此语句后面不能接任何语句，就算你在bat文件里面添加了别的语句，也不会得到执行，查阅了好多资料，没有发现解决办法，逼不得已，我只能把job做成了一个一个单独的bat文件，这个有点儿杯具。

4.JDK或者JRE很重要。

博主因为服务器上没有配置java环境，吃了不少苦。

先是没装java环境，无法运行kettle；接着装好了java环境之后，job和转换可以正常运行，但是kitchen.bat语句不能正常运行，又查阅了一堆资料后发现，原来是环境变量的问题，设置了环境变量之后总算可以正常运行了。

有一篇介绍

Kitchen——作业执行器   是一个作业执行引擎，用来执行作业。这是一个命令行执行工具，没啥可讲的，就把它的参数说明列一下。
-rep    : Repository name 任务包所在存储名
-user    : Repository username 执行人
-pass    : Repository password 执行人密码
-job    : The name of the job to launch 任务包名称
-dir    : The directory (don''t forget the leading / or \)
-file    : The filename (Job XML) to launch
-level : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing) 指定日志级别
-log    : The logging file to write to  指定日志文件
-listdir  : List the directories in the repository 列出指定存储中的目录结构。
-listjobs : List the jobs in the specified directory 列出指定目录下的所有任务
-listrep  : List the defined repositories 列出所有的存储
-norep : Don''t log into the repository  不写日志
嗯，居然不支持调度。看了一下文档，建议使用操作系统提供的调度器来实现调度，比如：Windows可以使用它的任务计划工具。

kettle的使用（ETL，数据仓库技术）的更多相关文章

ETL技术( Extract-Transform-Load) 数据仓库技术-比如kettle
每次面试,互联网的面试官,经常问我有没有用过ETL,每次我都懵逼,说没用过,觉得是多么高大上的东东,数据仓储今天查了一下,我晕,自己天天用的Kettle就是最典型的ETL, 可以实现不同数据库之间的 ...
Kettle学习系列之数据仓库、数据整合、ETL、ELT和EII之间的区别？
不多说,直接上干货! 在数据仓库领域里,的一个重要概念就是数据整合(data intergration).数据整合它就是把不同数据库中的数据整合到一起,对外提供统一的数据视图. 数据整合最典型的案例就 ...
ETL （数据仓库技术）
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.ETL一词较常用在数 ...
EDW on Hadoop(Hadoop上的数据仓库)技术选型和实践思考
在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法. 欢迎转载, 但必须注明原贴(刘忠武, http://www.cnblogs.com/ha ...
ELT(数据仓库技术) 学习
ETL工具比较: https://blog.csdn.net/wjandy0211/article/details/78611801 ETL之kettle使用总结:(批量.含常量)csv入库: htt ...
Sqool与kettle开源的ETL工具
现在的ETL都是基于管道的模式(数据流)运行,比较有名的有 TaskCTL ========================================== 数据抽取的开源工具一个是RDBMS ...
BI 底座——数据仓库技术(Data Warehouse)
在开始喷这个主题之前,让我们先看看数据仓库的官方定义: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non- ...
ETL数据仓库
http://blog.csdn.net/leicool_518/article/category/3058299 http://bbs.csdn.net/topics/390349305
CDC+ETL实现数据集成方案
欢迎咨询,合作! weix:wonter 名词解释: CDC又称变更数据捕获(Change Data Capture),开启cdc的源表在插入INSERT.更新UPDATE和删除DELETE活动时会插 ...

随机推荐

Contiki Process概述
本文涉及到的Protothread机制知识,在http://www.cnblogs.com/songdechiu/p/5793717.html 一.进程类型进程类型主要有协同式(cooperativ ...
jQuery Tab选项卡切换代码
jQuery Tab选项卡切换代码是一款简单的jquery tab选项卡切换网页特效代码样式,可以修改tab选项卡相关样式. 代码下载:http://www.huiyi8.com/sc/10863.h ...
分享知识-快乐自己：2017IDEA破解教程
首先修改host文件: 文件路径:C:\Windows\System32\drivers\etc\hosts 修改:将“0.0.0.0 account.jetbrains.com”追加到hosts文 ...
IDEAL葵花宝典：java代码开发规范插件 lombok 插件
前言: lombok简介: lombok是暑假来到公司实习的时候发现的一个非常好用的小工具,刚见到的时候就感觉非常惊艳,有一种相见恨晚的感觉,用了一段时间之后感觉的确挺不错,所以特此来推荐一下. 那么 ...
001-Bootstrap栅格系统
1 安装和基本使用外文官网中文官网可以正常下载使用有三个文件夹, 分别是css, fonts, js bootstrap/ ├── css/ │ ├── bootstrap.css │ ├── ...
HDU 1166 敌兵布阵（线段树单点修改和区间和查询）
Input 第一行一个整数T,表示有T组数据.每组数据第一行一个正整数N(N<=50000),表示敌人有N个工兵营地,接下来有N个正整数,第i个正整数ai代表第i个工兵营地里开始时有ai个人(1 ...
BZOJ2329：[HNOI2011]括号修复
浅谈\(splay\):https://www.cnblogs.com/AKMer/p/9979592.html 浅谈\(fhq\)_\(treap\):https://www.cnblogs.com ...
洛谷 2585 [ZJOI2006]三色二叉树——树形dp
题目:https://www.luogu.org/problemnew/show/P2585 可以把不是绿色的记成一种.仔细一想不会有冲突.如果自己是绿色,孩子的不同颜色不会冲突:如果自己不是绿色,自 ...
《TCP/IP详解卷一：协议》概述
分层 TCP/IP协议族是一组不同层次上的多个协议的组合.TCP/IP通常被认为是一个四层次协议系统. 链路层(数据链路层或网络接口层):通常包括操作系统中的设备驱动程序和计算 ...
Mongo可视化工具基本操作
一.可视化工具界面(字段名可以不加引号) 二.查询(query)1.日期如:"F1":ISODate("2017-07-26T16:00:00Z")2.条件(& ...

kettle的使用（ETL，数据仓库技术）

kettle的使用（ETL，数据仓库技术）的更多相关文章

随机推荐

热门专题