Msyql到Vertica

1、mysql中在openshop 数据库中选择其中一个300W左右数据的表

create table ip_records_tmp_01

AS

SELECT * FROM ip_records_tmp t

WHERE t.datetime<= '2015-05-01'

2、vertica创建表ip_records_tmp_01,注意字段类型和mysql有点不一样。

全量抽取2478130条数据,耗时30s,速度不错!

3、在mysql中新增972948条数据,删除462151条数据,更新273427条数据

新增:

insert into ip_records_tmp_01

select  *  from ip_records_tmp t

where t.`datetime` > '2015-05-01';

删除:

delete from ip_records_tmp_01

where `datetime` <= '2015-05-01' and `datetime` >'2015-04-01';

更新:

update ip_records_tmp_01

set remark1 ='INMAN',remark2 ='LEFTLIFE'

where

`datetime` <= '2015-04-01' AND `datetime` >'2015-03-01'

增量抽取,耗时2h 3mn 33s,速度不能接受。

调试1,利用时间戳

利用时间戳来增量抽取数据,针对数据允许的情况优先考虑,但是不排除时间戳无法实施的情况,所以还需寻找其他方法。

调试2,建立索引

从mysql到sqlserver数据表和数据量都一致的情况下的截图:

全量抽取,耗时42S

对sqlserver的表建立索引,增量抽取数据,耗时10mn 50s,速度也还算可以。

于是在vertica中建立类似索引的projection,效果不理想,速度没见明显提高,所以不截图,这次调优也不行。

调试3,临时表+运行脚本

全量抽取,耗时32s

增量抽取,耗时1mn 48s,速度有大幅度提升。

一些错误解决方法

Kettle内存溢出 out of memory

解决方法:调整kettle调用java的JVM内存大小,修改spoon.bat文件中的

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xmx4096m" "-XX:MaxPermSize=4096m"

把内存调大,运行大数据量排序时,如果不调整内存,kettle会崩溃!

[Vertica][VJDBC](5156):READ COMMITTED

[Vertica][VJDBC](5156) ERROR: Unavailable: initiator locks for query - Locking failure: Timed out X locking Table .Your current transaction isolation level is READ COMMITTED

解决方法:由于删除和插入/更新的事务互锁,将更新控件中提交记录数量由10000减少到1000,删除控件中的提交记录数量由1000减少到100。

Kettle数据同步速度调优记录的更多相关文章

  1. Oracle SQL调优记录

    目录 一.前言 二.注意点 三.Oracle执行计划 四.调优记录 @ 一.前言 本博客只记录工作中的一次oracle sql调优记录,因为数据量过多导致的查询缓慢,一方面是因为业务太过繁杂,关联了太 ...

  2. 【Spark篇】---Spark调优之代码调优,数据本地化调优,内存调优,SparkShuffle调优,Executor的堆外内存调优

    一.前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存. 二.具体    1.代码调优 1.避免创建重复的RDD,尽 ...

  3. Spark学习之路 (九)SparkCore的调优之数据倾斜调优

    摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Sp ...

  4. Spark(十)Spark之数据倾斜调优

    一 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作 ...

  5. Spark性能优化:数据倾斜调优

    前言 继<Spark性能优化:开发调优篇>和<Spark性能优化:资源调优篇>讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化 ...

  6. Spark性能优化--数据倾斜调优与shuffle调优

    一.数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...

  7. MySQL插入数据性能调优

    插入数据性能调优总结: 1.SQL插入语句调优 2.如果是InnoDB引擎的话,尝试开启事务,批量提交 3.调整MySQl数据库配置     参考: 百度空间 - MySQL插入数据性能调优 CSDN ...

  8. Spark学习之路 (九)SparkCore的调优之数据倾斜调优[转]

    调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...

  9. 最详细10招Spark数据倾斜调优

    最详细10招Spark数据倾斜调优 数据量大并不可怕,可怕的是数据倾斜 . 数据倾斜发生的现象 绝大多数 task 执行得都非常快,但个别 task 执行极慢. 数据倾斜发生的原理 在进行 shuff ...

随机推荐

  1. spring+hibernate单元测试案例

    1,maven创建web工程 2,导入相关依赖 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmln ...

  2. subprocess.Popen运行报错WindowsError: [Error 740]

    subprocess.Popen在win10下运行报740错时 使用os.popen替换,运行OK,exe程序成功启动 import subprocess import uiautomation as ...

  3. Oulipo (poj3461

    Oulipo Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 29759   Accepted: 11986 Descript ...

  4. Sublime Text3 代码编辑器使用笔记

    Sublime Text3 作为一款代码的文本编辑器,有许多插件,这一点是我认为 Sublime Text3 很强大的原因之一.插件的安装可以参考下面的文章. Sublime Text3 插件安装教程 ...

  5. css浮动现象及清除浮动的方法

    css浮动现象及清除浮动的方法   首先先明确浮动最初的定义及使用场景:实现文本环绕图片的效果. 除了用浮动外,目前暂无其他方法实现文本环绕   再来看看浮动的具体定义: 浮动的框可以左右移动,直至它 ...

  6. linux(centos6) 下安装 postgresql-9.3.1.tar.gz

    目录 一. 环境 二.准备工作 三.先安装 make, gcc ,gcc-c++,readline-devel ,zlib-devel .如果已安装,可以忽略 四.开始安装 4.1 解压 tar -z ...

  7. linux下rpm包安装、配置和卸载mysq

    l   WIN10下虚拟机:VMware workstation 12 PRO 安装 # 1.查看系统版本 [root@vm-xiluhua][/home/xiluhua]$ cat /etc/red ...

  8. Vue过渡:CSS过渡

    一 项目结构 二 App.vue <template> <div id="app"> <transition name="fade" ...

  9. python实现读取excel

    实现代码如下: #读取excel,将每行数据放入一个列表,将所有列表放入一个列表形成二维列表,返回该二维列表 import xlrd class ReadExcel: def read_excel(s ...

  10. 合并石子(区间DP)

    有N堆石子,现要将石子有序的合并成一堆,规定如下:每次只能移动相邻的2堆石子合并,合并花费为新合成的一堆石子的数量.求将这N堆石子合并成一堆的总花费最小. 区间DP思想:现在小区间进行DP得到最优解, ...