转载:http://www.zilhua.com/2222.html

http://gridscheduler.sourceforge.net/htmlman/

SGE作业调度系统的简介

一、常见的几种作业调度系统

Condor是一个资源管理和作业调度系统,是来自Wisconsin-Madison大学的研究项目。充分利用工作站的空闲时间是Condor的最显著特征。Condor管理的机群由网络中的工作站组成,工作站可以自愿加入或退出。Condor监测网络中所有工作站的状态,一旦某台计算机被认为空闲,便把它纳入到资源池中。在资源池中的工作站被用来执行作业。

Sun网格引擎(Sun Grid ,SGE)是一种来自于SUN Microsystem的分布式资源管理和调度系统,它用来在基于UNIX的计算环境中优化软件和硬件资源的使用。SGE能用于查找资源池内的闲置资源并利用这些资源;它同样用于通常的一些事务中,例如管理和调度作业到可用资源中。

负载共享设施(Load Sharing Facility,LSF)是由加拿大平台计算公司研制与开发的,由Toronto大学开发的Utopia系统发展而来。在使用范围上,LSF不仅用于科学计算,也用于企业的事务处理。功能上,除了一般的作业管理特性外,它还在负载平衡、系统容错、检查点操作、进程迁移等方面作了很好的努力,并力图使之实用化。

便携式批处理系统(Portable Batch System,PBS)是一个资源管理和调度系统,它接受批处理作业(具有控制属性的shell脚本),保留和保护作业直到它开始运行。因为一个批处理作业是一个无需用户干预的,在计算机系统后台运行的程序,在批处理作业运行过程中,用户无法实时地得到作业运行结果,所以PBS只能在作业执行后,将作业结果返回给提交者。目前,PBS包含开源免费的OpenPBS、商业付费的PBS Pro、Torque三种分支。

二、SGE 常见指令

  1. qsub 提交任务
-cwd #从当前工作路径运行作业
-wd working_dir #定义工作目录
-o  path 定义标准输出文件路径、文件名
-e  path #定义标准错误输出文件路径、文件名
-j y[es]|n[o] #定义作业的标准错误输出是否写入到输出文件中
-now y[es]|n[o] #立即执行作业
-a date_time #作业开始运行时间
-b y[es]|n[o] #指定运行程序是二进制文件还是脚本文件,默认n
-m b|e|a|s|n #定义邮件发送规则。
b:作业开始时发送。e:作业结束时发送。a:作业失败时发送 s:作业挂起时发送。n:不发送
-M user[@host] #定义邮件地址
-l resource=value #表明作业运行所需要的资源。【-l arch=solaris64,h_vmem=750M,permas=1】
-N job_name #重命名作业名
-q queue_name #定义作业运行队列
-S shell_path #指定运行Shell环境
-P project_name #定义项目名称,前提是存在该项目
-p priority #定义优先级,-1023 到 1024 , 默认值0
-r y[es]|n[o] #定义作业失败后是否重新运行 -
v variable #定义环境变量
-dl date_time #定义作业到期时间,在作业到期时间之前,作业的优先级会逐步提高,直到管理员指定的最高级别。

举个栗子:

qsub –cwd  -l  h=compute-1-1, h_vmem=5G,p=4  -q all.q work.sh

其中:

-cwd 在当前工作目录;

-l 资源申请/限制,用逗号隔开

-q 申请队列

关于资源限制域,可以通过如下指令查看:qconf -sc

下面列举一些常见的关键字:

#name shortcut type relop default urgency define
cpu cpu DOUBLE >= 0 0 cpu nums
h_vmem h_vmem MEMORY <= 0 0 The per-job maximum memory limit in bytes.
hostname h HOST == NONE 0 host name
mem_free mf MEMORY <= 1g 0 MEM_NEEDED is the amount of memory (in megabytes M, or gigabytes G) that your job will require
num_proc p INT <= 1 0 process number
qname q RESTRING == NONE 0 quene name
s_data s_data MEMORY <= 0 0 The per-process maximum memory limit in bytes.
tmpdir tmp RESTRING == NONE 0 tmp dir
virtual_free vf MEMORY <= 1g 0 The per-job maximum memory limit, dynamically
  1. qstat 查看任务状态

qstat -u username  查看某个用户的任务

qstat -u \* 查看所有用户的任务

qstat -j jobID 查看某个任务的详细信息

qstat -f 查看用户自己在每个节点的任务情况

qstat -q all.q -u \* 查看某个队列下所有任务

qstat -q all.q@node1 -u \* 查看某个队列的某一节点下所有任务

  1. qdel 删除任务

qdel [ -f ]  [ -help ] [-u wc_user_list] [ wc_job_range_list ] [ -t task_id_range ]

qdel job_id 删除job

qdel -u usrname 删除用户的所有任务

  1. qhold 挂起任务

qhold job_id

qhold -u \* 挂起所有用户的任务

  1. qalter更改任务属性

qalter [ options ] wc_job_range_list [ -- [ command_args ]]

指令和qsub差不多,不多介绍了。

16、SGE作业调度系统的简介的更多相关文章

  1. 集群SGE作业调度系统

    目录 0. 一些基本概念 1. 常见的几种资源管理和调度系统 2. SGE常见指令 2.1 提交任务 2.2 查看任务 2.3 删除任务 2.4 挂起/恢复任务 2.5 更改任务属性 0. 一些基本概 ...

  2. Sun Grid Engine (SGE)大型集群作业调度系统

    Oracle Grid Engine 作业调度系统的简介(目前为止我用过PBS和SGE) SGE作业调度系统学习笔记 SGE作业调度 USE of Sun Grid Engine(SGE) 待续~

  3. Python使用multiprocessing实现一个最简单的分布式作业调度系统

    Python使用multiprocessing实现一个最简单的分布式作业调度系统介绍Python的multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机 ...

  4. Linux系统入门简介<1>

    linux系统入门简介 我们为什么要学习Linux? 在介绍Linux的历史前,我想先针对大家如何对Linux的发音说一下.我发现我身边的朋友对Linux的发音大致有这么几种: "里那克斯& ...

  5. LoadRunner系统架构简介

    1.LoadRunner系统架构简介 LoadRunner是通过创建虚拟用户来代替真实实际用户来操作客户端软件比如Internet Explorer,来向IIS.Apache等Web服务器发送HTTP ...

  6. iOS系统版本简介

    iOS系统版本简介 ⽬目前iOS设备所⽀支持的最主流操作系统是iOS6,⼤大概占了93%,⽽而使 ⽤用iOS5的iOS设备⼤大概占6%,剩下的只有1%.( 根据苹果的官⽅方数据 ) 从iOS1到现在的 ...

  7. SQL Server 系统表简介

    SQL Server 系统表简介 系统目录是由描述SQL Server 系统的数据库.基表.视图和索引等对象的结构的系统表组成.SQL Server 经常访问系统目录,检索系统正常运行所需的必要信息. ...

  8. SQL Server数据库存在判断语句及系统表简介 转

    Transact-SQL Exists Sentences--判断数据库是否存在IF EXISTS(SELECT * FROM master.sysdatabases WHERE name=N'库名' ...

  9. 树莓派Ubuntu 16.04 MATA系统 修改用户文件夹名后,提示configure it with blueman-service

    自从修改了树莓派的Ubuntu 16.04 MATA 系统的 /home/ 下的用户文件夹名后,使用vncserver远程操作,看到桌面每次都提示 Configured directory for i ...

随机推荐

  1. Example 2 - contour plots

    load "$NCARG_ROOT/lib/ncarg/nclscripts/csm/gsn_code.ncl" begin cdf_file = addfile("$N ...

  2. echarts相关设置

    1.显示隐藏工具栏 注释toolbox即可 /*    toolbox: {         show : true,         feature : {             dataView ...

  3. mysql 触发器(trigger) 总结

    触发器(trigger):监视某种情况,并触发某种操作. 触发器创建语法四要素:1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/befo ...

  4. JS字符串转换成数字

    方法主要有三种 转换函数.强制类型转换.利用js变量弱类型转换. 1. 转换函数: js提供了parseInt()和parseFloat()两个转换函数.前者把值转换成整数,后者把值转换成浮点数.只有 ...

  5. hdu 1503 Advanced Fruits(最长公共子序列)

    Advanced Fruits Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)T ...

  6. getline()函数详解 (2013-03-26 17:19:58)

     学习C++的同学可能都会遇到一个getline()函数,譬如在C++premer中,标准string类型第二小节就是“用getline读取整行文本”.书上给的程序如下: int main() {   ...

  7. ES _source字段介绍——json文档,去掉的话无法更新部分文档,最重要的是无法reindex

    摘自:https://es.xiaoleilu.com/070_Index_Mgmt/31_Metadata_source.html The _source field stores the JSON ...

  8. ADO:游标与RecordSetPtr

    一.游标的属性设置: 游标是记录集recordset中用于游动逐个查找一条记录的一种机制.查询的数据返回后,通过游标来逐条获取查询的记录. 因此在配置数据库查询方式前可配置游标的属性: rs.Curs ...

  9. leetcode 268 Missing Number(异或运算的应用)

    Given an array containing n distinct numbers taken from 0, 1, 2, ..., n, find the one that is missin ...

  10. OpenCV-Python 霍夫直线检测-HoughLinesP函数参数

    cv2.HoughLines()函数是在二值图像中查找直线,cv2.HoughLinesP()函数可以查找直线段. cv2.HoughLinesP()函数原型: HoughLinesP(image, ...