DataStage序列文章

DataStage 一、安装
 DataStage 二、InfoSphere Information Server进程的启动和停止
 DataStage 三、配置ODBC
DataStage 错误集(持续更新)
DataStage 四和五因为包含大量图片发布不便，有兴趣学习和研究者请联系索要！！！
DataStage 六、安装和部署集群环境

1 配置文件的用途

配置文件在DS运行时第一时间被读取，如果JOB属性中设置了$APT_CONFIG_FILE参数，则DS读取该参数中配置的配置文件信息；如果没有配置则读取项目属性$APT_CONFIG_FILE参数中配置的配置文件信息；如果没有则读取默认的配置文件default.apt；配置文件告诉了DS怎么分配所需要的系统资源，如逻辑处理节点信息、temporary store、dataset storage，在某些情况同样可以在配置文件中配置更高级的资源信息，如buffer storage；使用配置文件的好处在于可以在修改了配置文件(比如增加节点或增加其它资源)的情况不修改或重新设计JOB，使其保持可用状态，而处理这些你仅仅需要在job属性或项目属性中设置$APT_CONFIG_FILE参数。在创建配置文件时我们主要要考虑的两个重要因素有:逻辑处理节点和优化并行。

2 逻辑处理节点(Logical Processing Node)

在并行作业中配置文件可以定义一个或多个逻辑处理节点，这些定义的逻辑节点信息会在并行作业运行时由Engine分配使用，如下面的逻辑节点定义:

{

    node "node1"

    {

        fastname "dsconductor01"

        pools ""

        resource disk "/disk2/IBM/EngineTier/Server/Datasets" {pools ""}

        resource scratchdisk "/disk2/IBM/EngineTier/Server/Scratch" {pools ""}

    }

    node "node2"

    {

        fastname "dsconductor01"

        pools ""

        resource disk "/disk2/IBM/EngineTier/Server/Datasets" {pools ""}

        resource scratchdisk "/disk2/IBM/EngineTier/Server/Scratch" {pools ""}

    }

}

注意:处理节点node1和node2是逻辑节点不是物理节点，它不代表物理CPU的个数，可以在一个物理机器中定义一个或多个逻辑节点。逻辑节点的定义决定了在并行作用运行时可以产生多少个并行进程和有多少的资源可用，等同于Unix上的物理进程数，逻辑节点越多产生的进程和使用的内存或磁盘空间(如排序操作)就越多。在IBM的官方文档中建议创建逻辑节点的个数为物理CUP数的一半，当然这还要取决于系统配置、资源可用性、资源共享、硬件和JOB设计，比如如果JOB需要高的IO操作或者要从数据库中获取大量的数据，这时可能要考虑定义多个逻辑节点来完成操作。

3 优化并行(Optimizing parallelism)

并行的个数取决于在配置文件中配置的逻辑处理节点个数，并行应该在考虑系统和JOB设计的情况下进行优化而不是最大化，并行数越多可能会很好的分布负载，但同时也增加了系统的进程数和资源的消耗，背后也隐示的增加了系统整体负载；所以并非并行越多越好，所以一定要综合考虑CPU、内存、磁盘、JOB方面因素，使并行对系统的影响和效率可维护。
**注意:如果stage中包含联结或者sort，你可能会使用Partition，比如Hash分区，如果数据的量接近等于分区数，比如下面的数据:

在这样的情况下等量的并行数会显著提高整体的性能。

3 创建配置文件示例

当安装DS时系统默认创建default.apt文件，并且该配置文件默认应用于创建的DS项目，该文件创建的规则:

逻辑节点数=1/2的物理CUP个数
disk和scratchdisk 使用DS安装目录下的子目录

你要创建新的配置文件去优化并行作业，使其能够充分的使用硬件资源和系统资源，因为不同的job所需要的资源是不一样的，比如说JOB中包含排序和保存数据到磁盘文件的stage，需要高的IO操作，这时根据系统情况分配多个scratchdisk可以显著提高排序效率。做为示例我做了这样一个job；

Select_bigData 从源表中读取一张包含1亿数据的表；
Sort_bigData 对源表的数据进行复杂的排序操作；
Tran_bigData 对排好序的数据进行转换；
最后将数据保存到目标表。
我为该job定义了一个config file:

/* beging of config */

{

    node "node1"

    {

        fastname "domain01"

        pools ""

        resource disk "/Data/SHAREDATA/Datasets" {pools ""}

        resource scratchdisk "/Data/scratch01" {pools ""}

    }

    node "node2"

    {

        fastname "domain01"

        pools ""

        resource disk "/Data/SHAREDATA/Datasets" {pools ""}

        resource scratchdisk "/Data/scratch02" {pools ""}

    }

    node "node3"

    {

        fastname "domain01"

        pools ""

        resource disk "/Data/SHAREDATA/Datasets" {pools ""}

        resource scratchdisk "/Data/scratch03" {pools ""}

    }

    node "node4"

    {

        fastname "domain01"

        pools ""

        resource disk "/Data/SHAREDATA/Datasets" {pools ""}

        resource scratchdisk "/Data/scratch04" {pools ""}

    }

}/* end of entire config */

在config file 中包含4个逻辑节点，so 当运行job时ds会创建4个进程并行处理；4个逻辑节点中分别分配了不同的scratchdisk，这样并行进程即可将数据以集合的方式分别写入4个scratchdisk中完成排序操作。so 在job开始前，检查了系统的ds进程情况，只有一个正在连接的dsapi_slave；

 phantom printer segments!

 DSnum Uid       Pid   Ppid  C Stime Tty      Time     Command

  sywu     12431 12430  0 11:02 ?        00:00:07 dsapi_slave 7 6 0 4

当job启动运行时，ds便读取配置文件，然后计算和分配资源；

4 phantom printer segments!

 DSnum Uid       Pid   Ppid  C Stime Tty      Time     Command

 49932 sywu     15604 15564  0 11:52 ?        00:00:00 phantom DSD.OshMonitor Clu

 49937 sywu     15599 15564  0 11:52 ?        00:00:00 phantom SH -c '/software/I

 49972 sywu     15564 12431  1 11:52 ?        00:00:00 phantom DSD.RUN ClusterRea

 53105 sywu     12431 12430  0 11:02 ?        00:00:10 dsapi_slave 7 6 0 4

这些并行进程同时处理不同的操作:

[domain01:dsadm]ps -ef|grep 15604

sywu     15604 15564  0 11:52 ?        00:00:00 phantom DSD.OshMonitor ClusterReadBigDataAndSaveToTab 15603 MSEVENTS.FALSE

dsadm    16816 17037  0 11:52 pts/0    00:00:00 grep 15604

[domain01:dsadm]ps -ef|grep 15599

sywu     15599 15564  0 11:52 ?        00:00:00 phantom SH -c '/software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY  -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF'

sywu     15602 15599  0 11:52 ?        00:00:00 /software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF

dsadm    16819 17037  0 11:53 pts/0    00:00:00 grep 15599

[domain01:dsadm]ps -ef|grep 15564

sywu     15564 12431  0 11:52 ?        00:00:00 phantom DSD.RUN ClusterReadBigDataAndSaveToTab 0/0/1/0/0/0/0/

sywu     15599 15564  0 11:52 ?        00:00:00 phantom SH -c '/software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY  -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF'

sywu     15604 15564  0 11:52 ?        00:00:00 phantom DSD.OshMonitor ClusterReadBigDataAndSaveToTab 15603 MSEVENTS.FALSE

dsadm    16822 17037  0 11:53 pts/0    00:00:00 grep 15564

[domain01:dsadm]ps -ef|grep 12431

sywu     12431 12430  0 11:02 ?        00:00:10 dsapi_slave 7 6 0 4

sywu     15564 12431  0 11:52 ?        00:00:00 phantom DSD.RUN ClusterReadBigDataAndSaveToTab 0/0/1/0/0/0/0/

dsadm    16826 17037  0 11:53 pts/0    00:00:00 grep 12431

每一个并行进程向相应的scratchdisk中写临时数据；

[domain01:dsadm]ls  /Data/scratch01

tsort50d0A7CB  tsort50db8yql  tsort50d_Dflj  tsort50dfY9VY  tsort50djuws6  tsort50dPpmTS  tsort50dTwSkn  tsort50dxaZhz

tsort50d0K6rw  tsort50dBD7Lr  tsort50dDl1hJ  tsort50dGM1PK  tsort50dk3CQP  tsort50dpS_7P  tsort50dtWx6t  tsort50dX@oqU

....

[domain01:dsadm]ls  /Data/scratch02

tsort40d0A7CB  tsort40dBD7Lr  tsort40ddrQKv  tsort40dgoGBU  tsort40dKj8K3  tsort40d__Rs8  tsort40duZ4Zu  tsort40dZ2z@z

tsort40d0K6rw  tsort40dbEMco  tsort40degDYO  tsort40dgVgZs  tsort40d@kl2X  tsort40dSAMWF  tsort40dVAwRI  tsort40dzpg0g

...

[domain01:dsadm]ls  /Data/scratch03

tsort90d0A7CB  tsort90dBD7Lr  tsort90ddrQKv  tsort90dgoGBU  tsort90dKj8K3  tsort90d__Rs8  tsort90duZ4Zu  tsort90dZ2z@z

tsort90d0K6rw  tsort90dbEMco  tsort90degDYO  tsort90dgVgZs  tsort90d@kl2X  tsort90dSAMWF  tsort90dVAwRI  tsort90dzpg0g

...

[domain01:dsadm]ls  /Data/scratch04

tsort70d0A7CB  tsort70dBD7Lr  tsort70ddrQKv  tsort70dgoGBU  tsort70dKj8K3  tsort70d__Rs8  tsort70duZ4Zu  tsort70dZ2z@z

tsort70d0K6rw  tsort70dbEMco  tsort70degDYO  tsort70dgVgZs  tsort70d@kl2X  tsort70dSAMWF  tsort70dVAwRI  tsort70dzpg0g

tsort70d_0oKX  tsort70dbo642  tsort70deP8o7  tsort70dH6oYi  tsort70dL9Gnu  tsort70dSG2rc  tsort70dVUr3y  tsort70dZrp8k

...

3.1 SMP Server配置文件

当系统运行在共享共享memory，多进程系统中，比如SMP server，假设系统有4个cpu，有4个分离的文件系统磁盘(/fdisk01,/fdisk02,/fdisk03,/fdisk04)，为了更好的优化并行资源，创建如下的配置文件:

/* beging of config */

{

    node "node1"

    {

        fastname "domain01"

        pools ""

        resource disk "/fdisk01/disk" {}

        resource disk "/fdisk02/disk" {}

        resource disk "/fdisk03/disk" {}

        resource disk "/fdisk04/disk" {}

        resource scratchdisk "/fdisk01/scratch" {}

        resource scratchdisk "/fdisk02/scratch" {}

        resource scratchdisk "/fdisk03/scratch" {}

        resource scratchdisk "/fdisk04/scratch" {}

    }

    node "node2"

    {

        fastname "domain01"

        pools ""

        resource disk "/fdisk01/disk" {}

        resource disk "/fdisk02/disk" {}

        resource disk "/fdisk03/disk" {}

        resource disk "/fdisk04/disk" {}

        resource scratchdisk "/fdisk01/scratch" {}

        resource scratchdisk "/fdisk02/scratch" {}

        resource scratchdisk "/fdisk03/scratch" {}

        resource scratchdisk "/fdisk04/scratch" {}

    }

    node "node3"

    {

        fastname "domain01"

        pools ""

        resource disk "/fdisk01/disk" {}

        resource disk "/fdisk02/disk" {}

        resource disk "/fdisk03/disk" {}

        resource disk "/fdisk04/disk" {}

        resource scratchdisk "/fdisk01/scratch" {}

        resource scratchdisk "/fdisk02/scratch" {}

        resource scratchdisk "/fdisk03/scratch" {}

        resource scratchdisk "/fdisk04/scratch" {}

    }

    node "node4"

    {

        fastname "domain01"

        pools ""

        resource disk "/fdisk01/disk" {}

        resource disk "/fdisk02/disk" {}

        resource disk "/fdisk03/disk" {}

        resource disk "/fdisk04/disk" {}

        resource scratchdisk "/fdisk01/scratch" {}

        resource scratchdisk "/fdisk02/scratch" {}

        resource scratchdisk "/fdisk03/scratch" {}

        resource scratchdisk "/fdisk04/scratch" {}

    }

}/* end of entire config */

这样的配置适用于当job中包含比较复杂很难决定资源分配方式和stage需要较高的IO操作，ds计算指定的disk和scratchdisk，最大化的降低IO。

4 总结

很多情况下需要根据job的复杂程度、包含的stage以及数据量情况来创建相应的配置文件，不同的操作所需的系统、硬件资源不同，对于大数据的排序、保存到文件可能需要到较高的IO资源，对于运算、逻辑处理可能需要较高的CUP资源；创建配置文件时应综合考虑这些因素来创建；配置文件中的逻辑节点越多，可能提高并行作业效率，但同时它也增加了系统的负载。

--The end(2015-11-11)

DataStage 七、在DS中使用配置文件分配资源的更多相关文章

springboot配置静态资源访问路径
其实在springboot中静态资源的映射文件是在resources目录下的static文件夹,springboot推荐我们将静态资源放在static文件夹下,因为默认配置就是classpath:/s ...
SpringBoot学习(七)-->SpringBoot在web开发中的配置
SpringBoot在web开发中的配置 Web开发的自动配置类:在Maven Dependencies-->spring-boot-1.5.2.RELEASE.jar-->org.spr ...
聊聊并发（七）——Java中的阻塞队列
3. 阻塞队列的实现原理聊聊并发(七)--Java中的阻塞队列作者方腾飞发布于 2013年12月18日 | ArchSummit全球架构师峰会(北京站)2016年12月02-03日举办,了解更 ...
JNDI在server.xml中的配置（全局和局部的）
总结: 全局就是在数据源server.xml中配置,然后通过和项目名相同的xml来进行映射.对所有的项目都起作用.那个项目需要就在对应的tomcat下配置一个与项目名相同的xml映射文件. 局部的就是 ...
git在eclipse中的配置转载
git在eclipse中的配置转载一_安装EGIT插件 http://download.eclipse.org/egit/updates/ 或者使用Eclipse Marketplace,搜索EG ...
Spring Boot干货系列：（七）默认日志框架配置
Spring Boot干货系列:(七)默认日志框架配置原创 2017-04-05 嘟嘟MD 嘟爷java超神学堂前言今天来介绍下Spring Boot如何配置日志logback,我刚学习的时候, ...
struts2的占位符*在action中的配置方法
转自:https://blog.csdn.net/u012546338/article/details/68946633 在配置<action> 时,可以在 name,class,meth ...
关于spring中bean配置的几件小事
一.IOC和DI 1.IOC(Inversion of Control) 其思想是反转资源获取的方向.传统的资源查找方式要求组件向容器发起请求查找资源,作为回应,容器适时的返回资源:而应用了IOC之后 ...
详解在Linux中安装配置MySQL
最近在整理自己私人服务器上的各种阿猫阿狗,正好就顺手详细记录一下清理之后重装的步骤,今天先写点数据库的内容,关于在Linux中安装配置MySQL 安装环境 CentOS7 + MySQL5.7 下载安 ...

随机推荐

2018-2019-2 《网络对抗技术》Exp1 PC平台逆向破解 20165222
Exp1 PC平台逆向破解 1,掌握NOP, JNE, JE, JMP, CMP汇编指令的机器码 NOP:空指令,作用就是直接跳到下一指令.机器码为:90. JNE:判断0标志位,不等于0跳转.机器码 ...
MD文件
了解一个项目,恐怕首先都是通过其Readme文件了解信息.如果你以为Readme文件都是随便写写的那你就错了.github,oschina git gitcafe的代码托管平台上的项目的Readme. ...
streamsets Executors 说明
执行程序阶段在收到事件时触发任务.执行者不会写入或存储事件. 将执行程序用作事件流中数据流触发器的一部分,以执行事件驱动的与管道相关的任务,例如在目标关闭时移动完全写入的文件. 可以使用的execut ...
Windows Server Core Command （管理服务器核心的具体操作命令）
从 Windows Server 2008 开始,管理员可以选择安装具有特定功能但不包含任何不必要功能的 Windows Server 的最小安装服务器核心(Server Core),它为一些特定服务 ...
【python】常用的日期和时间操作
#-*- coding: utf-8 -*- import datetime #给定日期向后N天的日期 def dateadd_day(days): d1 = datetime.datetime.no ...
安装wamp 缺少msvcr100.dll
在一台新电脑上安装wampsever 这是百度上的解决方案,http://jingyan.baidu.com/article/0320e2c1eb49681b87507ba4.html 本人亲测第一 ...
jdbc练习demo
//连接云端服务器数据库工具类 public class TestJDBCUtil { public static String driver="com.mysql.jdbc.Driver& ...
关于sqoop --split-by 及 -m的理解
场景: sqoop import --connect jdbc:postgresql://...../..... --username .... --query "select * fro ...
sqoop导出到mysql中文乱码问题总结、utf8、gbk
sqoop导出到mysql中文乱码问题总结.utf8.gbk 今天使用sqoop1.4.5版本的(hadoop使用cdh5.4)因为乱码问题很是头痛半天.下面进行一一总结命令: [root@sdzn ...
Android 多线程注意事项
参考:http://blog.csdn.net/x86android/article/details/14161981 http://geeksun.iteye.com/blog/1447708 An ...

DataStage 七、在DS中使用配置文件分配资源