kettle转换和作业插件开发及调试】的更多相关文章

这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程.结果各种理由,一推再推.今天索性将这篇文档发布出来,分享给大家,例子等有空再补上.这是一篇基于kettle3.2基础上完成的kettle插件文档.然而现在最新版的kettle的界面已经完全变了样了,但是那些组件还是那么熟悉.对数据处理稍微熟悉点的应该对kettle都不陌生,kettle是一个快速格式化和数据抽取的工具.好吧,入正题: 如果你对kettle插件感兴趣可以到官网查看更多的资料:http://www.pent…
结果这样做还是乱码,其实这和…
在资源库中新建转换,作业都很简单,那么加入现在不需要其中某个转换或者作业该怎么办呢? 下图是已经存在的转换跟作业 现在需要删除aa这个转换 操作步骤如下: 1.工具----资源库----探索资源库 出现下图界面 2.删除资源库 找到自己需要删除的转换,例如“aa”,右键,即可删除 点击“是”,即可删除…
今天是12月1号,前期用kettle做了月报自动报表的转换和作业,今天运行时候发现一个报表的程序跑起来失败,心里很纳闷,上过月刚跑的没问题,怎么会无缘无故的失败. 通过看kettle运行日志,发现一个错误,c盘left no space 也就是在系统盘上没有足够的空间存储临时表,这时候才考虑到可能是在转换的步骤里设置的步骤过多,有很多个表输入, 由于kettle输出执行顺序是自上而下,但是输入是无序的,在很多步骤同时输入的时候就会占用很大的内存,性能就会很慢. 打开那个出问题的kettle转换文…
问题:kettle转换添加hbase-output无法获取hbase表 win本机安装kettle,本机虚拟机三台,root用户安装有jdk.zookeeper.hadoop.hbase kettle能添加并连接上hadoop,访问文件夹 但是添加hbase output时候,会报java.io.IOException: java.io.IOException: java.lang.RuntimeException: java.net.UnknownHostException: E  看到这个报…
java中调用kettle转换文件 通过命令行也能够调用,然后java中调用命令行代码也能够.这样没有和java代码逻辑无缝集成.本文说明kettle5.1中假设通过其它API和java代码无缝集成:网上大多数资料都是低版本号的.在kettle5.x中已经不能执行. 1.       须要哪些jar文件 以kettle开头的是必须,上图最以下三个也要:红色框中的两个是我測试转换用到的.各自是生成UUID和文件. 要是少了jar文件,执行程序一定报错.大家依据错误到kettle安装文件夹LIB中找…
kettle转换之多线程   ETL项目中性能方面的考虑一般是最重要的.特别是所讨论的任务频繁运行,或一些列的任务必须在固定的时间内运行.本文重点介绍利用kettle转换的多线程特性.以优化其性能. 如果转换中的每一个步骤已经设置成最快的运行速度而且调节性能至最佳,且再没有很多其它的性能提升空间.可是利用kettle的多线程特性仍然可能提升转换的总体性能. 调整队列大小 当尝试优化性能时.你能够调整输入.输出队列的大小.特别是假设你有足够多的内存(RAM)可用. 在kettle转换中配置队列大小…
1 将windows下面创建好的转换,放到Linux某一个文件夹下面.如:把0816_em.ktr文件放到/home/cfj/kettle/testdemo下面. 注意里面的数据库用户名和密码可能需要改,如果是job文件如:job0816_01.kjb.记得把里面存的路径改了,如下图: 2 编辑脚本文件,放入到对应文件夹中,并赋予权限 赋予权限方法如下: chmod +x ./test.sh #使脚本具有执行权限./test.sh #执行脚本 testshell0817.sh脚本如下: #!/b…
相关概念: Kettle数据清洗是采用元数据(Meta-data)驱动,以数据流的方式进行的,数据从数据源(数据库/文件等)在一系列相连的step之间依次向后流动,各个step完成对流经该step的数据进行需要的处理工作. Kettle中的数据转换组件按粒度从小到大分为Step.Trans.Job. Step:是完成单一具体功能的组件,如从文件中读取数据.对流中的字段进行字符串拆分操作.对不能为空的字段设置相应默认值.将流中的数据写入到数据表等. Trans:转换,一般最终清洗完成的数据库中有多…
转换机制 每个转换步骤都是ETL数据流里面的一个任务.转换步骤包括输入.处理和输出.输入步骤从外部数据源获取数据,例如文件或者数据库:处理步骤处理数据流,字段计算,流处理等,例如整合或者过滤.输出步骤将数据写会到存储系统里面,例如文件或者数据库. 图 1 转换步骤示例 1. Step类图简介 Kettle为扩展插件提供了4个扩展点,这4个扩展点也是每个步骤的组成.每个类都有其特定的目的及扮演的角色.以TableInput为例,下图说明了这4个类的继承体系. 图 2 StepInterface继承…
日常开发中由于很多参数是变化的,需要在部署时才能确定.而写在配置文件里又显得很笨重,因而可以运行时实时指定.那么kettle是怎么获取命令行中的参数的呢? kettle可以通过转换里的JavaScript获取变量 _step_.getTransMeta().getArguments()[0];…
日常开发中,为了确保账号和密码的安全,时常要对密码进行加密和解密.然而kettle是怎么对密码进行加密和解密的呢? 下面的代码需要再转换中的JavaScript中运行. var encrypted_password = 'not encrypted'; 加密(js中调用): encrypted_password = "Encrypted " + Packages.org.pentaho.di.core.encryption.Encr.encryptPassword(clear_pass…
[转自]http://www.kankanews.com/ICkengine/archives/61043.shtml 文章来自KENGINE | Kankanews.com 摘要: 本文主要讲eclipse插件开发的具体步骤,第一个插件工程的开发,调试,导出,安装,适合初学 1.1.创建plug-in项目: 这次做的是eclipse插件,这里选择NO 选择plug in with a view,创建项目. 到这里,我们已经创建好一个eclipse插件工程了: 这里我们可以修改我们插件视图的名称…
一.简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做. Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的…
背景:有很多小的转换需要串联起来,如果前一个执行成功,后面继续接着执行,如果执行等待中,就让程序等一会再次获取数据分析,如果失败就中止,成功就进行下一个转换,以此类推.... 需求:通过job把参数传入的转换,然后转换分析完后输出结果,然后Job接收后再次分析,查看是否需要进行再次循环, kettle文件下载:201911111826-kettle转换设置变量,校验输出新变量 截图说明: 设置变量 检查结果(此处省略在转换中获取job设置的变量) 设置输出一个新变量 通过新的转换,可能做些逻辑,…
把stu1的数据按id同步到stu2,stu2有相同id则更新数据 (1)在mysql中创建两张表 mysql> create database kettle; mysql> use kettle; mysql> create table stu1(id int,name varchar(20),age int); mysql> create table stu2(id int,name varchar(20)); (2)往两张表中插入一些数据 mysql> insert i…
日常开发中,时常会出现这样一种情况.有大量的函数是通用的.而每个JavaScript里面写一遍,给维护带来很大的困扰.因而需要将公共的函数写在外部js文件中.这时就需要引入外部的公共文件了.下面是在转换里的JavaScript组件中引入外部公共js文件. //加载js文件 LoadScriptFile(getVariable("Internal.Transformation.Filename.Directory", "") +"/common_Functi…
案例需求:在销售订单上新增一个按钮,在订单明细中新增一个字段,命名[即时库存]. 点击按钮,弹出“Hello World!”,并获取订单明细物料的即时库存,填入字段[即时库存]. 开发工具:Visual Studio 2012 开发语言:Asp.net C# ================================= 目录: 1.BOS单据加按钮 - -[测试按钮] 2.BOS单据加字段 - -[即时库存] 3.创建Visual C#类库 4.引入命名空间 5.编写按钮点击事件,建议用不…
一.概述 转换步骤分类: 1. 增加新的列 2. 字符串处理 3. 行列变换 4. 排序/排重/字段选择 5. 其他转换步骤 二.增加新的列 1.增加常量列 增加一列常量的列 其它增加列的操作大同小异,不一一赘述,只介绍计算器 1. 增加常量列 2. 增加序列列 3. 增加分组序列列 4. 增加校验列 5. 增加XML 列 6. 计算器 2.计算器 可以进行数值运算.日期运算等... 更多计算类型的介绍,参见wiki 三.字符串处理 1.字符串拆分 1.同Java的indexOf,左闭右开的形式…
环境 windows + eclipse +sonarqube server 5.6.4 准备 新建一个maven项目,其中加入了一些插件所用的jar <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/PO…
0 创建转换 并保存0816_em.ktr 1 主对象树中选择DB连接,创建2个DB连接 2 创建表输入 核心对象树中选择输入>表输入 3 核心对象树中选择输出>插入/更新表 并连线 4 设置插入/更新 5 保持转换 6 创建任务job0816 通用里面选择START  和 转换,并连线 对应项目地址:https://gitee.com/kaixinmao/kettleDemo/tree/master…
https://blog.csdn.net/qustdong/article/details/46046553…
发布时间:2018-11-16   技术:spring+springmvc +beetlsql+quartz+kettle8   概述 Kettle调度监控平台(以下简称KS)是一个自主开发的javaweb程序,专门用来调度和监控由kettle客户端创建的job和transformation.KS整体的框架是由spring+sprin gmvc +beetlsql整合而成,通过调用kettle的API来执行转换和作业,并且使用quartz框架完成调度工作.此版本基于kettle-8.0.0.0-…
kettle中转换和作业的执行顺序:     1.一个作业内的转换,是顺序执行的.     2.一个转换内的步骤是并行执行的.     3.作业内不支持事务,转换内支持事务. 根据业务需要,通常需要在转换内顺序执行,小技巧如下:     1.执行SQL是优先于所有步骤.     2.使用“阻塞数据直到步骤都完成”,确保其他数据步骤都完成再进行下一步骤. 事务:     1.设置转换只使用一个事务.转换设置-->夹项-->使用唯一连接.     2.设置转换内的表插入等数据库的操作不进行批量提交…
Kettle 官网 ETL利器Kettle实战应用解析系列 利用kettle组件导入excel文件到数据库 kettle中实现动态SQL查询 java中调用kettle转换文件…
1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳定高效的数据同步功能.(摘自百科) 2.Apache开源软件:Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Post…
ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析系列二 [应用场景和实战DEMO下载] 三.ETL利器Kettle实战应用解析系列三 [ETL后台进程执行配置方式] 本文主要阅读目录如下: 1.Kettle概念 2.下载和部署 3.Kettle环境配置 4.Kettle使用及组件介绍 ETL(Extract-Transform-Load的缩写,即…
第一部分:开始 1         ETL入门 1.1   OLTP和数据仓库对比 1.2   ETL是什么 1.2.1          ETL解决方案的演化过程 1.2.2          ETL基本构成 1.3   ETL.ELT和EII 1.3.1          ETL 1.3.2          EII:虚拟数据整合 1.4   数据整合面临的挑战 1.4.1          方法论:敏捷BI 1.4.2          ETL设计 1.4.3          获取数据…
参考书籍:Pentaho Kettle Solutions中文版.由于最近不断的使用kettle,随着不断深入使用,遇到的问题越来越多,发现脑子那点货根本不够用,所以根据阅读把一些概念记录一下,方便自己观看,也希望读看到帖子的有所帮助. 1.转换.Kettle在运行转换的时候,根据用户的设置,可以将数据以不同的方式发送到多个数据流中.注意:有两种基本发送方式,即分发和复制,分发类似于发扑克牌,以轮流的方式将每行数据只发给一个数据流.复制是将一行数据发给所有数据流. 2.转换.转换以并行的方式执行…
Kettle可以在Window.Linux.Unix上运行,数据抽取高效稳定,使用之前需要准备环境. 准备java环境,这里就不赘述了,建议jdk7以上版本. 上传kettle压缩包,并解压,我解压的路径是/usr/soft/kettle 以下是重点: 确保kettle脚本可执行权限 使用命令查看文件权限 ls -l /data-integration 如图:  如果没有执行权限,执行以下命令: chmod +x /usr/soft/kettle/dist/*.sh 使用命令测试是否部署成功…