DataStage 七、在DS中使用配置文件分配资源
DataStage序列文章
DataStage 一、安装
DataStage 二、InfoSphere Information Server进程的启动和停止
DataStage 三、配置ODBC
DataStage 错误集(持续更新)
DataStage 四和五因为包含大量图片发布不便,有兴趣学习和研究者请联系索要!!!
DataStage 六、安装和部署集群环境
1 配置文件的用途
配置文件在DS运行时第一时间被读取,如果JOB属性中设置了$APT_CONFIG_FILE参数,则DS读取该参数中配置的配置文件信息;如果没有配置则读取项目属性$APT_CONFIG_FILE参数中配置的配置文件信息;如果没有则读取默认的配置文件default.apt;配置文件告诉了DS怎么分配所需要的系统资源,如逻辑处理节点信息、temporary store、dataset storage,在某些情况同样可以在配置文件中配置更高级的资源信息,如buffer storage;使用配置文件的好处在于可以在修改了配置文件(比如增加节点或增加其它资源)的情况不修改或重新设计JOB,使其保持可用状态,而处理这些你仅仅需要在job属性或项目属性中设置$APT_CONFIG_FILE参数。在创建配置文件时我们主要要考虑的两个重要因素有:逻辑处理节点和优化并行。
2 逻辑处理节点(Logical Processing Node)
在并行作业中配置文件可以定义一个或多个逻辑处理节点,这些定义的逻辑节点信息会在并行作业运行时由Engine分配使用,如下面的逻辑节点定义:
{
node "node1"
{
fastname "dsconductor01"
pools ""
resource disk "/disk2/IBM/EngineTier/Server/Datasets" {pools ""}
resource scratchdisk "/disk2/IBM/EngineTier/Server/Scratch" {pools ""}
}
node "node2"
{
fastname "dsconductor01"
pools ""
resource disk "/disk2/IBM/EngineTier/Server/Datasets" {pools ""}
resource scratchdisk "/disk2/IBM/EngineTier/Server/Scratch" {pools ""}
}
}
注意:处理节点node1和node2是逻辑节点不是物理节点,它不代表物理CPU的个数,可以在一个物理机器中定义一个或多个逻辑节点。逻辑节点的定义决定了在并行作用运行时可以产生多少个并行进程和有多少的资源可用,等同于Unix上的物理进程数,逻辑节点越多产生的进程和使用的内存或磁盘空间(如排序操作)就越多。在IBM的官方文档中建议创建逻辑节点的个数为物理CUP数的一半,当然这还要取决于系统配置、资源可用性、资源共享、硬件和JOB设计,比如如果JOB需要高的IO操作或者要从数据库中获取大量的数据,这时可能要考虑定义多个逻辑节点来完成操作。
3 优化并行(Optimizing parallelism)
并行的个数取决于在配置文件中配置的逻辑处理节点个数,并行应该在考虑系统和JOB设计的情况下进行优化而不是最大化,并行数越多可能会很好的分布负载,但同时也增加了系统的进程数和资源的消耗,背后也隐示的增加了系统整体负载;所以并非并行越多越好,所以一定要综合考虑CPU、内存、磁盘、JOB方面因素,使并行对系统的影响和效率可维护。
**注意:如果stage中包含联结或者sort,你可能会使用Partition,比如Hash分区,如果数据的量接近等于分区数,比如下面的数据:
在这样的情况下等量的并行数会显著提高整体的性能。
3 创建配置文件示例
当安装DS时系统默认创建default.apt文件,并且该配置文件默认应用于创建的DS项目,该文件创建的规则:
- 逻辑节点数=1/2的物理CUP个数
- disk和scratchdisk 使用DS安装目录下的子目录
你要创建新的配置文件去优化并行作业,使其能够充分的使用硬件资源和系统资源,因为不同的job所需要的资源是不一样的,比如说JOB中包含排序和保存数据到磁盘文件的stage,需要高的IO操作,这时根据系统情况分配多个scratchdisk可以显著提高排序效率。做为示例我做了这样一个job;

Select_bigData 从源表中读取一张包含1亿数据的表;
Sort_bigData 对源表的数据进行复杂的排序操作;
Tran_bigData 对排好序的数据进行转换;
最后将数据保存到目标表。
我为该job定义了一个config file:
/* beging of config */
{
node "node1"
{
fastname "domain01"
pools ""
resource disk "/Data/SHAREDATA/Datasets" {pools ""}
resource scratchdisk "/Data/scratch01" {pools ""}
}
node "node2"
{
fastname "domain01"
pools ""
resource disk "/Data/SHAREDATA/Datasets" {pools ""}
resource scratchdisk "/Data/scratch02" {pools ""}
}
node "node3"
{
fastname "domain01"
pools ""
resource disk "/Data/SHAREDATA/Datasets" {pools ""}
resource scratchdisk "/Data/scratch03" {pools ""}
}
node "node4"
{
fastname "domain01"
pools ""
resource disk "/Data/SHAREDATA/Datasets" {pools ""}
resource scratchdisk "/Data/scratch04" {pools ""}
}
}/* end of entire config */
在config file 中包含4个逻辑节点,so 当运行job时ds会创建4个进程并行处理;4个逻辑节点中分别分配了不同的scratchdisk,这样并行进程即可将数据以集合的方式分别写入4个scratchdisk中完成排序操作。so 在job开始前,检查了系统的ds进程情况,只有一个正在连接的dsapi_slave;
phantom printer segments!
DSnum Uid Pid Ppid C Stime Tty Time Command
sywu 12431 12430 0 11:02 ? 00:00:07 dsapi_slave 7 6 0 4
当job启动运行时,ds便读取配置文件,然后计算和分配资源;

4 phantom printer segments!
DSnum Uid Pid Ppid C Stime Tty Time Command
49932 sywu 15604 15564 0 11:52 ? 00:00:00 phantom DSD.OshMonitor Clu
49937 sywu 15599 15564 0 11:52 ? 00:00:00 phantom SH -c '/software/I
49972 sywu 15564 12431 1 11:52 ? 00:00:00 phantom DSD.RUN ClusterRea
53105 sywu 12431 12430 0 11:02 ? 00:00:10 dsapi_slave 7 6 0 4
这些并行进程同时处理不同的操作:
[domain01:dsadm]ps -ef|grep 15604
sywu 15604 15564 0 11:52 ? 00:00:00 phantom DSD.OshMonitor ClusterReadBigDataAndSaveToTab 15603 MSEVENTS.FALSE
dsadm 16816 17037 0 11:52 pts/0 00:00:00 grep 15604
[domain01:dsadm]ps -ef|grep 15599
sywu 15599 15564 0 11:52 ? 00:00:00 phantom SH -c '/software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF'
sywu 15602 15599 0 11:52 ? 00:00:00 /software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF
dsadm 16819 17037 0 11:53 pts/0 00:00:00 grep 15599
[domain01:dsadm]ps -ef|grep 15564
sywu 15564 12431 0 11:52 ? 00:00:00 phantom DSD.RUN ClusterReadBigDataAndSaveToTab 0/0/1/0/0/0/0/
sywu 15599 15564 0 11:52 ? 00:00:00 phantom SH -c '/software/IBM/InformationServer/Server/DSEngine/bin/OshWrapper RT_SCTEMP/ClusterReadBigDataAndSaveToTab.fifo RT_SC3/OshExecuter.sh R DUMMY -f RT_SC3/OshScript.osh -monitorport 13400 -pf RT_SC3/jpfile -impexp_charset UTF-8 -string_charset UTF-8 -input_charset UTF-8 -output_charset UTF-8 -collation_sequence OFF'
sywu 15604 15564 0 11:52 ? 00:00:00 phantom DSD.OshMonitor ClusterReadBigDataAndSaveToTab 15603 MSEVENTS.FALSE
dsadm 16822 17037 0 11:53 pts/0 00:00:00 grep 15564
[domain01:dsadm]ps -ef|grep 12431
sywu 12431 12430 0 11:02 ? 00:00:10 dsapi_slave 7 6 0 4
sywu 15564 12431 0 11:52 ? 00:00:00 phantom DSD.RUN ClusterReadBigDataAndSaveToTab 0/0/1/0/0/0/0/
dsadm 16826 17037 0 11:53 pts/0 00:00:00 grep 12431
每一个并行进程向相应的scratchdisk中写临时数据;
[domain01:dsadm]ls /Data/scratch01
tsort50d0A7CB tsort50db8yql tsort50d_Dflj tsort50dfY9VY tsort50djuws6 tsort50dPpmTS tsort50dTwSkn tsort50dxaZhz
tsort50d0K6rw tsort50dBD7Lr tsort50dDl1hJ tsort50dGM1PK tsort50dk3CQP tsort50dpS_7P tsort50dtWx6t tsort50dX@oqU
....
[domain01:dsadm]ls /Data/scratch02
tsort40d0A7CB tsort40dBD7Lr tsort40ddrQKv tsort40dgoGBU tsort40dKj8K3 tsort40d__Rs8 tsort40duZ4Zu tsort40dZ2z@z
tsort40d0K6rw tsort40dbEMco tsort40degDYO tsort40dgVgZs tsort40d@kl2X tsort40dSAMWF tsort40dVAwRI tsort40dzpg0g
...
[domain01:dsadm]ls /Data/scratch03
tsort90d0A7CB tsort90dBD7Lr tsort90ddrQKv tsort90dgoGBU tsort90dKj8K3 tsort90d__Rs8 tsort90duZ4Zu tsort90dZ2z@z
tsort90d0K6rw tsort90dbEMco tsort90degDYO tsort90dgVgZs tsort90d@kl2X tsort90dSAMWF tsort90dVAwRI tsort90dzpg0g
...
[domain01:dsadm]ls /Data/scratch04
tsort70d0A7CB tsort70dBD7Lr tsort70ddrQKv tsort70dgoGBU tsort70dKj8K3 tsort70d__Rs8 tsort70duZ4Zu tsort70dZ2z@z
tsort70d0K6rw tsort70dbEMco tsort70degDYO tsort70dgVgZs tsort70d@kl2X tsort70dSAMWF tsort70dVAwRI tsort70dzpg0g
tsort70d_0oKX tsort70dbo642 tsort70deP8o7 tsort70dH6oYi tsort70dL9Gnu tsort70dSG2rc tsort70dVUr3y tsort70dZrp8k
...
3.1 SMP Server配置文件
当系统运行在共享共享memory,多进程系统中,比如SMP server,假设系统有4个cpu,有4个分离的文件系统磁盘(/fdisk01,/fdisk02,/fdisk03,/fdisk04),为了更好的优化并行资源,创建如下的配置文件:
/* beging of config */
{
node "node1"
{
fastname "domain01"
pools ""
resource disk "/fdisk01/disk" {}
resource disk "/fdisk02/disk" {}
resource disk "/fdisk03/disk" {}
resource disk "/fdisk04/disk" {}
resource scratchdisk "/fdisk01/scratch" {}
resource scratchdisk "/fdisk02/scratch" {}
resource scratchdisk "/fdisk03/scratch" {}
resource scratchdisk "/fdisk04/scratch" {}
}
node "node2"
{
fastname "domain01"
pools ""
resource disk "/fdisk01/disk" {}
resource disk "/fdisk02/disk" {}
resource disk "/fdisk03/disk" {}
resource disk "/fdisk04/disk" {}
resource scratchdisk "/fdisk01/scratch" {}
resource scratchdisk "/fdisk02/scratch" {}
resource scratchdisk "/fdisk03/scratch" {}
resource scratchdisk "/fdisk04/scratch" {}
}
node "node3"
{
fastname "domain01"
pools ""
resource disk "/fdisk01/disk" {}
resource disk "/fdisk02/disk" {}
resource disk "/fdisk03/disk" {}
resource disk "/fdisk04/disk" {}
resource scratchdisk "/fdisk01/scratch" {}
resource scratchdisk "/fdisk02/scratch" {}
resource scratchdisk "/fdisk03/scratch" {}
resource scratchdisk "/fdisk04/scratch" {}
}
node "node4"
{
fastname "domain01"
pools ""
resource disk "/fdisk01/disk" {}
resource disk "/fdisk02/disk" {}
resource disk "/fdisk03/disk" {}
resource disk "/fdisk04/disk" {}
resource scratchdisk "/fdisk01/scratch" {}
resource scratchdisk "/fdisk02/scratch" {}
resource scratchdisk "/fdisk03/scratch" {}
resource scratchdisk "/fdisk04/scratch" {}
}
}/* end of entire config */
这样的配置适用于当job中包含比较复杂很难决定资源分配方式和stage需要较高的IO操作,ds计算指定的disk和scratchdisk,最大化的降低IO。
4 总结
很多情况下需要根据job的复杂程度、包含的stage以及数据量情况来创建相应的配置文件,不同的操作所需的系统、硬件资源不同,对于大数据的排序、保存到文件可能需要到较高的IO资源,对于运算、逻辑处理可能需要较高的CUP资源;创建配置文件时应综合考虑这些因素来创建;配置文件中的逻辑节点越多,可能提高并行作业效率,但同时它也增加了系统的负载。
--The end(2015-11-11)
DataStage 七、在DS中使用配置文件分配资源的更多相关文章
- springboot配置静态资源访问路径
其实在springboot中静态资源的映射文件是在resources目录下的static文件夹,springboot推荐我们将静态资源放在static文件夹下,因为默认配置就是classpath:/s ...
- SpringBoot学习(七)-->SpringBoot在web开发中的配置
SpringBoot在web开发中的配置 Web开发的自动配置类:在Maven Dependencies-->spring-boot-1.5.2.RELEASE.jar-->org.spr ...
- 聊聊并发(七)——Java中的阻塞队列
3. 阻塞队列的实现原理 聊聊并发(七)--Java中的阻塞队列 作者 方腾飞 发布于 2013年12月18日 | ArchSummit全球架构师峰会(北京站)2016年12月02-03日举办,了解更 ...
- JNDI在server.xml中的配置(全局和局部的)
总结: 全局就是在数据源server.xml中配置,然后通过和项目名相同的xml来进行映射.对所有的项目都起作用.那个项目需要就在对应的tomcat下配置一个与项目名相同的xml映射文件. 局部的就是 ...
- git在eclipse中的配置 转载
git在eclipse中的配置 转载 一_安装EGIT插件 http://download.eclipse.org/egit/updates/ 或者使用Eclipse Marketplace,搜索EG ...
- Spring Boot干货系列:(七)默认日志框架配置
Spring Boot干货系列:(七)默认日志框架配置 原创 2017-04-05 嘟嘟MD 嘟爷java超神学堂 前言 今天来介绍下Spring Boot如何配置日志logback,我刚学习的时候, ...
- struts2的占位符*在action中的配置方法
转自:https://blog.csdn.net/u012546338/article/details/68946633 在配置<action> 时,可以在 name,class,meth ...
- 关于spring中bean配置的几件小事
一.IOC和DI 1.IOC(Inversion of Control) 其思想是反转资源获取的方向.传统的资源查找方式要求组件向容器发起请求查找资源,作为回应,容器适时的返回资源:而应用了IOC之后 ...
- 详解在Linux中安装配置MySQL
最近在整理自己私人服务器上的各种阿猫阿狗,正好就顺手详细记录一下清理之后重装的步骤,今天先写点数据库的内容,关于在Linux中安装配置MySQL 安装环境 CentOS7 + MySQL5.7 下载安 ...
随机推荐
- 一个Android开发妹子的找工作心酸史
阿里:实习二面被KO 1,人生接到的第一个电话面试来自大家都说好的阿里,心情激动,说话颤抖,本以为没有戏,然而第二天接到了二面的电话有点小激动.然后就是被ko了,死的原因很简单,那时候单纯的自己什么都 ...
- LG4717 【模板】快速沃尔什变换
题意 题目描述 给定长度为\(2^n\)两个序列\(A,B\),设\(C_i=\sum_{j\oplus k}A_jB_k\)分别当\(\oplus\)是or,and,xor时求出C 输入输出格式 输 ...
- lua 二进制函数使用
由于 Lua 脚本语言本身不支持对数字的二进制操作(例如 与,或,非 等操作),MUSHclient 为此提供了一套专门用于二进制操作的函数,它们都定义在一个"bit"表中,使用时 ...
- timescaledb replication 使用
replication 可以确保系统的ha 以及lb 数据的查询,timesacledb 使用pg 内置的stream replication 进行复制的支持 docker 运行参考 https:// ...
- DFS&&BFS
DFS DFS搜索是按照深度的方向搜索,它类似于树的先根遍历,是树的先根遍历的推广. 1.从图的某个顶点v0出发,首先访问v0, 2.找出刚访问过的顶点的第一个未被访问过的邻接点,然后访问该结点,以该 ...
- TS流解析 二 *****
1.TS格式介绍 TS:全称为MPEG2-TS.TS即"Transport Stream"的缩写.它是分包发送的,每一个包长为188字节(还有192和204个字节的包).包的结构为 ...
- keepalive配置db层的ha的一些注意点
具体db是那种都一样 db先做好replica,可以用自己带的,或者drbd的磁盘复制 db和keepalived必须在同一主机 keepalived里面的rs必须只有一个(否则,做不了主从,理论上会 ...
- 使用sublime text3手动安装插件
众所周知,由于网络问题,使用install package可能会连不上服务器,这时候就不得不手动安装插件了. 其实sublime安装插件的原理就是当你搜索一个插件并安装的时候,它回去github找到这 ...
- 基于C#的微信公众平台开发系列1
1.首先服务器地址及Token验证: Token验证请求地址wx.ashx代码: using System; using System.Web; public class wx : IHttpHand ...
- shred_linux_unix
Sometimes you need to destroy or wipe data from hard drives (for example, before you sell your old h ...