Kettle6使用】的更多相关文章

1.Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程)项目,java编写,绿色无需安装 下载http://community.pentaho.com/projects/data-integration/ Kettle包括三大块:   Spoon——转换/工作(transform/job)设计工具 (GUI方式)   Kitchen——工作(job)执行器 (命令行方式)   Span——转换(trasform)执行器 (命令行方式)…
kettle6.0表输入我们需要从数据中获取数据的时候,需要和数据库建立连接,简单的说下步骤: 1.双击表输入: 2.点击"新建",输入参数值: 注意:数据库用户名可以通过sql进行查询(select a.INSTANCE_NAME from v$instance a ). 3.连接类型和方式一般是oracle和jdbc,也可以根据数据库的不同选择相应的连接方式. 4.点击测试,会报出测试结果,测试成功,点击确认. 5.建立完连接,就可以在SQL框输入提数SQL,在记录数量限制里面输入…
一.Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定. Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做. Kettle中有两种脚本文件,transformation和job,transformation完…
1.安装JDK 配置java环境变量 2.安装KETTLE: 官方下载地址:http://community.pentaho.com/projects/data-integration/ 下载完后,解压即可 3.运行spoon 在不同的平台上运行spoon所支持的脚本: Spoon.bat:在Windows平台上运行spoon: Spoon.sh:在Linux.AppleOSX.Solaris平台上运行Spoon. 4. 配置JVM及内存配置问题 如果java_home设置了,仍提示: coul…
为了编译能通过,maven需要加入仓库地址以及一些必须要的包的依赖情况: pentaho中央仓库: 在properties里面配置版本号: <kettle.version>6.0.0.0-353</kettle.version> <repository> <id>pentaho1</id> <name>Pentaho Repository1</name> <url>http://repository.penta…
不知不觉Kettle以及到了6.0,名字似乎也变了Pentaho官方的名称是 Pentaho  Data Integration,于是就下载了最新的版本,下载地址为: Pentaho Data Integration 各版本下载 然后设置了PENTAHO_JAVA_HOME环境变了,启动Spoon.bat后如下,看到界面我真的想说你变了,我快要不认识你了Kettle 下面就说一下遇到的问题 A:新建资源库问题 新建SQLserver 2008R2资源库的时候,SQL里面有几个Bit类型的字段需要…
. Kettle的结构图如下: 2.介绍各个组件详细情况 表输入:通常是你的sql语句,这个会Kettle基础知识的都会不介绍了 JSON Output如下: MogoDB output如下: 下面这一步需要制定更新的主键.字段“Match field for update” 注意事项:如果需要做更新操作一定只要在最后一步创建索引才行. 最后分享一个笑话,环节工作压力: https://kuaibao.qq.com/s/20181119A1X9SQ00?refer=kb_news&coral_u…
配置好mongodb连接之后,点击预览报下面的错: 报错: java.lang.NoClassDefFoundError: javax/crypto/spec/PBEKeySpec         at com.mongodb.DBPort$ScramSha1Authenticator$ScramSha1SaslClient.Hi(DBPort.java:822)         at com.mongodb.DBPort$ScramSha1Authenticator$ScramSha1Sasl…
这个实验主要思想是在创建数据库表的时候, 通过增加一个额外的字段,也就是时间戳字段, 例如在同步表 tt1 和表 tt2 的时候, 通过检查那个表是最新更新的,那个表就作为新表,而另外的表最为旧表被新表中的数据进行更新. 实验数据如下: mysql database 5.1 test.tt1( id int primary key , name varchar(50) ); mysql.tt2( id int primary key, name varchar(50) ); 快照表,可以将其存放…
这个实验主要思想是在创建数据库表的时候, 通过增加一个额外的字段,也就是时间戳字段, 例如在同步表 tt1 和表 tt2 的时候, 通过检查那个表是最新更新的,那个表就作为新表,而另外的表最为旧表被新表中的数据进行更新. 实验数据如下: mysql database 5.1 test.tt1( id int primary key , name varchar(50) ); mysql.tt2( id int primary key, name varchar(50) ); 快照表,可以将其存放…