kettle优化】的更多相关文章

版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/ClamReason/article/details/49930479 Kettle正常转换速度 场景 正常 不正常 数据库操作 3k-2w条/秒 2000条/秒以下 文件操作 2w条/秒以上 1w条以下 http.get.set 比数据库慢 容易产生性能问题的场景 查询类: 数据库查询:数据库查询.数据库连接.插入更新 Web查询 :http/get/set webservice 计算类 格式转换…
http://blog.csdn.net/cissyring/archive/2008/05/29/2494130.aspx 1. Join 我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该怎么样做. 这是新手最容易犯错的一个地方,A数据流跟B数据流能够Join,肯定是它们包含join key ,join key 可以是…
1.创建MySQL空资源库报错问题:因为boolean类型的问题,Mysql中的boolean类型实际上保存为TINYINT,需要手动的修改生成资源库的sql脚本,将其中的插入用户ENABLED的值由Y修改为1,在数据同步的时候也特别要注意TINYINT类型的字段,ETL在读取数据以后会将值显示为Y或者N,保存到另外一张表的TINYINT中就会报错. 2.乱码问题:数据库连接在选项中添加characterEncoding=utf-8,资源库连接时也必须要加上这个,否则在Mac下中文会乱码 3.J…
环境:windows7,jvm内存设置14G,kettle5.1后来升级到5.4,oracle作为资源库. 问题背景:我们通过web页面管理kettle的job运行,这只是一个管理界面,即使web项目停掉也不会影响job的运行情况,实际运行job的是后台程序,随着job数量的增多,达到三四百个时,job的运行速度也达到了难以接受的程度. 方案1: 针对出现的问题,经测试发现,job一经运行就不会再重新从资源库读取了(针对定时运行的job),job中的转换则每次都会重新从资源库中读取,我找到了or…
   修改kettleDB连接设置 1. 增加批量写的速度:useServerPrepStmts=false  rewriteBatchedStatements=true  useCompression=true2. 增加读的速度:useServerPrepStmts=truecachePrepStmts=true 参数说明: 1)useCompression=true,压缩数据传输,优化客户端和MySQL服务器之间的通信性能. 2)rewriteBatchedStatements=true …
普通开发电脑,如果没有网络查询步骤,kettle正常的速度应该在3000~20000条/秒.如果速度在2000条/秒一下,就可能需要调优. 性能优化的方式包括如下几种: 1.通过改变开始复制的数量(针对查询控件,这种方式比较简单,需要多长尝试合理的复制数量) 2.在查询的控件中,条件是相等查询的话,可以使用缓存.例如:数据库查询中,如果是比较相等,可以勾选使用缓存和从表中加载所有数据. 3.合适的添加数据库索引(针对数据库查询控件). 4.集群(针对查询控件.运算控件.排序空间). 5.最后更换…
1.安装 配置Java环境 Java环境配置问题 java_home:D:\Program Files\Java\jdk1.7.0_25(安装jdk路径) classpath:.;%java_home%\lib\dt.jar;%java_home%\lib\tools.jar path:在path路径中添加%java_home%\bin;%java_home%\jre\bin; kettle_home:D:\Program Files\data-integration(安装kettle路径) -…
ETL效率优化 开启数据库日志记录及性能监控 如果我们想要优化一个ETL(KTR或者KJB)的性能,我们首先需要知道的就是它的瓶颈在哪里.而这些信息一般只能在ETL运行的步骤度量中看到,并且是不会持久化的.如果你希望把一些数据记录下来,帮助以后进行查阅,那么可以开启数据库日志和性能监控. 作业 Edit -> Settings -> Log 具体设置过程就不细讲了,很简单. 转化 Edit -> Settings -> Logging 这时开启了日志记录,还需要设置性能监控 Edi…
1. 乱码问题 编辑目标数据库的链接: 配置编码参数即可. 2. 报错 No operations allowed after statement closed. 需要调整wait_timeout: set global wait_timeout=1000000: 3. net_write_timeout 参数也需要调整:set global net_write_timeout='60000' kettle在迁移数据时,运行速度很慢,如果数量很大时,需要调整相关参数,不然运行到一半就报错. 迁移…
第一次写博客,心里有点小激动,肯定有很多需要改进的地方,望海涵. kettle算是我相对较为深入研究过的开源软件了,也是我最喜欢的开源软件之一,它可以完成工作中很多体力劳动,在ETL数据抽取方面得到了广泛的使用.我本身对kettle的各个控件使用也不是很熟悉,只会使用最常见的部分控件,就是这样简单的使用也被它的美深深的吸引住了. 好了,进入正题,这里假设你熟悉java开发.git一般使用.kettle一般使用.kettle源码之前托管在kettle官方的svn上,后来迁移到了github上,在g…