Change Capture可以比较具有相同列的数据集的差异,得出一个数据集(After)在另一个数据库(Before)的基础上产生的哪些变化。变化类型如表1:

变化代码 变化 中文说明
0 no change 无变化
1 insert 新增
2 delete 删除
3 edit 有变化
表1 变化种类

1 JOB示例

如图1,我们最终做出的JOB会是这个样子。它包含3个序列文件组件data_before、data_after、cmp_result;2个排序组件sort_before、sort_after;一个change capture组件cc。

JOB从2个结构相同的源文件抽取数据,最终比较出data_after在data_before上产生了哪些改变,然后将改变存入cmp_result。

图1 JOB示例

2 组件简介

2.1 阶段

阶段选项卡如图2。

图2 阶段选项卡

2.1.1 Change Mode

先介绍一下选项里的Change Mode,它有3种模式,官方解释如下:

All Keys, Explicit Values means that value columns must be defined, but all other columns are key columns unless they are excluded.
Explicit Keys & Values means that key & value columns must be explicitly defined.
Explicit Keys, All Values means that key columns must be defined, but all other columns are value columns unless they are excluded.

我的理解如表2:

模式名称 说明
All Keys, Explicit Values 明确指定值。
这时属性中会出现Excluded Keys和Change Values这2个文件夹,我们需要在这2个文件夹添加属性,或者只指定Change Values。
除了Excluded Keys、Change Values,其他的都是key,用来确定一条记录。
Explicit Keys & Values 明确指定键和值。
我们需要在Change Keys和Change Values文件夹中添加属性。
Explicit Keys, All Values 明确指定键。
需要在Excluded Values和Change Keys填写属性,或者只指定Change Keys。

表2 Change Mode说明

说明:我一般都是采用Explicit Keys, All Values,然后指定数据集的主键,如图2。其他模式您可以自己尝试。

2.2 其他选项

接下来介绍选项。用来确定比对结果输出和是否需要在日志中记录统计信息。

属性 说明
drop output for copy 没有发生变化的记录是否要从输出中删除。
True:删除,即不输出;False:输出。
drop output for delete 在data_after中删除的记录是否要从输出中删除。
即data_after中没有,data_before中有的记录。
drop output for edit data_after和data_before不一致的记录是否要从输出中删除。
drop output for insert data_after中有而data_before中没有的记录。
log statistics 是否在日志中输出统计信息。日志会记录数据集的记录数,新增、删除的记录数等。

3 结果展示

3.1 data_before

code    name    salary  entryDate
001 hong 100 2014-01-12
002 bai 105 2014-01-22
003 wang 110 2014-02-01
004 lan 102 2014-02-02

3.2 data_after

code    name    salary  entryDate
001 hong 120 2014-01-12
002 bai 105 2014-01-22
004 lan 102 2014-02-02
005 hei 103 2014-03-02

3.3 cmp_result

001     hong    120     2014-01-12      3
003 wang 110 2014-02-01 2
005 hei 103 2014-03-02 1

4 附JOB导出文件

点击下载

DataStage系列教程 (Change Capture)的更多相关文章

  1. DataStage系列教程 by Bluebreeze

    突发奇想,用了这么久的DataStage,想要写点东西祭奠那逝去的岁月.希望可以坚持一直写完. DataStage系列教程 (Change Capture) DataStage系列教程 (Pivot_ ...

  2. DataStage系列教程 (Slowly Changing Dimension)缓慢变化维

    BI中维表的增量更新一般有2种: Type 1:覆盖更改.记录的列值发生变化,直接update成最新记录. Type 2:历史跟踪更改.记录值发生变化,将该记录置为失效,再insert一条新的记录. ...

  3. DataStage系列教程 (Pivot_Enterprise 行列转换)

    有人提到Pivot_Enterprise这个组件,之前没有用过,今天捣腾了会,写下来供以后参考,如果有什么不对的,还请多指出,谢谢! Pivot_Enterprise主要用来进行行列转换. 1 示例 ...

  4. CRL快速开发框架系列教程三(更新数据)

    本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...

  5. 【ASP.NET Identity系列教程(一)】ASP.NET Identity入门

    注:本文是[ASP.NET Identity系列教程]的第一篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  6. 【ASP.NET Identity系列教程(二)】运用ASP.NET Identity

    注:本文是[ASP.NET Identity系列教程]的第二篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  7. 【ASP.NET Identity系列教程(三)】Identity高级技术

    注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  8. Unity3D脚本中文系列教程(十三)

    http://dong2008hong.blog.163.com/blog/static/469688272014032334486/ Unity3D脚本中文系列教程(十二) ◆ function G ...

  9. jquery系列教程4-事件操作全解

    点击打开: jquery系列教程1-选择器全解 jquery系列教程2-style样式操作全解 jquery系列教程3-DOM操作全解 jquery系列教程4-事件操作全解 jquery系列教程5-动 ...

随机推荐

  1. 购物车-删除单行商品-HTMLTableElement.deleteRow()

    wta 问题发源的代码: /*删除单行商品*/ function deleteRow(rowId){ var Index=document.getElementById(rowId).rowIndex ...

  2. d3.js:数据可视化利器之 修改文档:DOM操作符

    style: CSS样式操作符 style()操作符用来设置或获取选择集中各DOM元素的CSS样式: selection.style(name[,value[,priority]]) style()操 ...

  3. JS获取浏览器信息及屏幕分辨率

    因为vue有自己的生命周期,初始化数据的时候,可以在钩子函数created()函数里初始化数据,也可以在mounted()函数里获取,但是两者是不同的,获取浏览器和屏幕分辨率的时候,不能在create ...

  4. PHP json_encode自动转码的问题

    用PHP的json_encode处理中文的时候, 中文会被编码成类似于"\u5f20\u4e09"的格式,例如: <?php $arr = array('张三','李四'); ...

  5. Spark ML Pipeline简介

    Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在 ...

  6. STL make_heap push_heap pop_heap sort_heap

    make_heap: default (1) template <class RandomAccessIterator> void make_heap (RandomAccessItera ...

  7. debian7更换gcc版本的二种方法分享

    debian7更换gcc版本的二种方法分享   最近在编译qt,之前用的是debian6,gcc版本是gcc-4.4,当使用debian7时,编译遇到了很多跟debian6不一样的问题,debian7 ...

  8. 错误:程序“XXX”不包含适合于入口点的静态“Main”方法

    解决办法: 1.右键类库属性 2.将输出类型改为“类库”

  9. 从两道题看go channel的用法

    在知乎看到有人分享了几道笔试题,自己总结了一下其中与channel有关的题目.全部题目在这里: https://zhuanlan.zhihu.com/p/35058068 题目 5.请找出下面代码的问 ...

  10. Winter-2-STL-E Andy's First Dictionary 解题报告及测试数据

    use stringstream Time Limit:3000MS     Memory Limit:0KB Description Andy, 8, has a dream - he wants ...