kettle之mongodb数据同步】的更多相关文章

需求: 1.源数据库新增一条记录,目标库同时新增一条记录: 2.源数据库修改一条记录,目标库同时修改该条记录: 示例用到三个Kettle组件 下面详细说下每个组件的配置 Source: 本示例连接的是Mongodb数据库,四个字段,ID默认为主键,_id会系统自动生成暂时先不管. 本节点的详细说明,可见官网:http://wiki.pentaho.com/display/EAI/MongoDB+Input 值映射: 本步在本示例作用不大,只是为了测试效果.按照截图上进行配置即可 MongoDbO…
1:数据同步的原理: 当Primary节点完成数据操作后,Secondary会做出一系列的动作保证数据的同步: 1:检查自己local库的oplog.rs集合找出最近的时间戳. 2:检查Primary节点local库oplog.rs集合,找出大于此时间戳的记录. 3:将找到的记录插入到自己的oplog.rs集合中,并执行这些操作. 2:查看副本集的信息 gechongrepl:PRIMARY> rs.status() { "set" : "gechongrepl&quo…
Performing Asynchronous HotLog Publishing Step 1   Source Database DBA: Set the database initialization parameters. Microsoft Windows [版本 ] 版权所有 (c) Microsoft Corporation.保留所有权利. C:\Users\Administrator>sqlplus /nolog SQL*Plus: Release Production on 星…
1.mongo-connector工具 首先安装python环境 wget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tgz tar -zxvf Python-3.0.1.tgz cd Python-3.0.1 ./configure make all make install 看来新装的版本生效了,做个软连接应该就OK. ln -s /usr/local/bin/python3.0 /usr/bin/python python -V…
1:local库是MongoDB的系统库,记录着时间戳和索引和复制集等信息 gechongrepl:PRIMARY> use local switched to db local gechongrepl:PRIMARY> show tables me oplog.rs replset.minvalid slaves startup_log system.indexes system.replset temp 2:local库下的每个集合分别记录的内容 local库下面的me集合保存了服务器名称…
今天试验了如何在Kettle的图形界面(Spoon)下面来整合来mysql 数据库中位于不同数据库中的数据表中的数据. 试验用的数据表是customers: 第三方的数据集下载地址是:http://www.mysqltutorial.org/download/2 Customers: stores customer’s data. 折叠处有对数据表customer结构的sql表示: DROP TABLE IF EXISTS `customers`; CREATE TABLE `customers…
一 数据同步        一个健康的secondary在运行时,会选择一个离自己最近的,数据比自己新的节点进行数据同步.选定节点后,它会从这个节点拉取oplog同步日志,具体流程是这样的:             a.执行这个op日志 b.将这个op日志写入到自己的oplog中(local.oplog.rs)           c.再请求下一个op日志          如果同步操作在第1步和第2步之间出现问题宕机,那么secondary再重新恢复后,会检查自己这边最新的oplog,由于第2…
下面是试验的主要步骤: 在上一篇文章中LZ已经介绍了,实验的环境和实验目的. 在本篇文章中主要介绍侧重于对Kettle ETL的相应使用方法, 在这里LZ需要说明一下,LZ成为了避免涉及索引和表连接等操作, 在数据库mysql中重新创建一个不带有索引和外键约束的 customers数据库表. 但数据集合不变. 所以在后文中国使用,mysql.customers来代替前篇文章中的test.customers. 下面的截图是使用Spoon工具来整体对这个流程的描述: (图) 首先需要使用Kettle…
1. 复制集(Replica sets)模式时,其会使用下面的local数据库local.system.replset 用于复制集配置对象存储 (通过shell下的rs.conf()或直接查询)local.oplog.rs 一个capped collection集合.可在命令行下使用--oplogSize 选项设置该集合大小尺寸.local.replset.minvalid 通常在复制集内使用,用于跟踪同步状态(sync status) 2. 主从复制模式(Master/Slave)* Mast…
通过kettle实现两张表的数据同步,具体设计如下:…