官方文档:https://slurm.schedmd.com/

用户命令cheatsheet:https://slurm.schedmd.com/pdfs/summary.pdf

占用GPU

salloc -n 8 -N 1 --gres=gpu:8 --partition=matrix1

-n

CPU数

-N

节点数

-gres=gpu:8

8个GPU

--partition=matrix1

在集群1

释放占用的GPU

ctrl+D

启动批处理脚本

sbatch

查看任务队列

squeue

一般squeue | grep xxx(查看本集群的等待队列时一般grep matrix)

几列依次是:

任务id、集群id、用户权限、用户名、任务状态(R-running,PD-padding),任务已经运行的时间,占用节点数,分配的节点的ip(如果尚未分配节点则显示任务优先级)

杀死任务

scancel

设置正常输出

--output

设置错误输出

--error

脚本编写:

#!/bin/bash
###SBATCH参数以#开头,非注释! #SBATCH --job-name=xxxx
###作业名称 #SBATCH --nodes=
###使用节点数量 #SBATCH --ntasks=
###总的进程数(CPU核数) #SBATCH --ntasks-per-node=
###每个节点的进程数,1个节点此项无需指定 #SBATCH --gres=gpu:
###每个节点使用的GPU数量,CPU作业此项此项无需指定 ##SBATCH --mem=10G
###申请预留内存大小,可选项 #SBATCH --partition=matrix1
###使用的分区,目前有n个集群分区 ##SBATCH --workdir=/share/admin
###作业的工作目录,输出log在此路径
###此路径必须是NFS共享目录 #SBATCH --output=%j.out
###作业错误输出文件,%j代表作业ID #SBATCH --error=%j.err
###作业正确输出文件 ##SBATCH --begin=:
###作业开始执行时间,默认立即执行,可选项 ##SBATCH --deadline=:
###作业强制终止时间,可选项 ##SBATCH --mail-type=end
###邮件通知类型start/end/failed,end表示作业结束时邮件通知,可选项 ##SBATCH --mail-user=xx@xx
###邮件通知邮箱,可选项 module load xxx
###加载环境 echo -e "JOB NAME:$SLURM_JOB_NAME,Job ID:$SLURM_JOBID,Allocate Nodes:$SLURM_JOB_NODELIST"
###显示作业名称,作业ID,使用节点 mpirun caffe train -solver ./solver.prototxt -gpu all -weights ./model1.bin,./model2.bin
###训练
##mpirun caffe train -solver ./solver.prototxt -gpu all -snapshot ./_iter_3000.solverstate
###finetune
###执行的程序,MPI作业,直接使用mpirun #srun ./test
###执行的程序,普通作业,使用srun

slurm使用的更多相关文章

  1. slurm任务调度系统部署和测试(一)

    1.概述 本博客通过VMware workstation创建了虚拟机console,然后在console内部创建了8台kvm虚拟机,使用这8台虚拟机作为集群,来部署配置和测试slurm任务调度系统. ...

  2. slurm作业提交系统常用命令

    写下自己的关于slurm感悟一二 与各人pc不同,slurm的基本架构是,一个中专节点,之后有很多局域网ip对应不同的计算节点,在中专节点敲命令,命令中可以指定需要用到哪些计算节点 1. 查看有哪些分 ...

  3. slurm用户快速入门手册

    1. 概述2. 架构3. 命令3.1 sacct3.2 sattach3.4 sbatch3.5 sbcast3.6 scancel3.7 scontrol3.8 sinfo3.9 smap3.10 ...

  4. slurm.conf系统初始配置

    #slurm集群配置 ##集群名称 ClusterName=myslurm ##主控制器的主机名 ControlMachine=node11 ##主控制器的IP地址 ControlAddr=192.1 ...

  5. Slurm任务调度系统部署和测试(源码)(1)

    1. 概述1.1 节点信息2. 节点准备3. 部署NTP服务器4. 部署LDAP服务器5. 部署Munge认证服务6. 部署Mysql数据库服务7. 部署slurm7.1 创建slurm用户7.2 挂 ...

  6. CentOS 7 install slurm cluster

    //slurm install //CentOS 7 system //192.168.159.141 node01 //192.168.159.142 node02 systemctl stop f ...

  7. 学习笔记之Slurm

    Slurm Workload Manager - Overview https://slurm.schedmd.com/overview.html Slurm is an open source, f ...

  8. 在.slurm文件中激活Anaconda环境

    超算中心使用slurm作为集群调度.原始slurm脚本如下: source activate tensorflow-gpu python neural_style.py --content conte ...

  9. linux commands

    abrt-cli --since ;查看abrt捕捉的异常 alias ;别名,alias rm='rm -i':使用“ \rm ” 使用原命令 alsamixer ;图形音量调节,q 增加左声道, ...

随机推荐

  1. [svc][op]如何查看当前Ubuntu系统的版本

    如何查看当前Ubuntu系统的版本 说来也惭愧,用Ubuntu差不多快1个月了,双系统是让朋友安的,只知道自己使用的是什么12版本的,具体怎么看还不知道,下面写一下查看当前Linux系统的版本的方法 ...

  2. Apache服务器 403 Forbidden的几种错误原因小结!

    403 Forbidden错误原因详解 403 - Forbidden(禁止访问),服务器拒绝请求 - forbidden request (matches a deny filter) => ...

  3. C/C++之文件打开方式差别

    一.引言 在上一篇中,需要获取文件的大小,但是获取的文件大小与从文件中读取的数据大小总是对不上(10行数据,文件大小是129,但是读取数据是119),因此,实现的服务器总是出现这个错误:net::ER ...

  4. linux内存排查工具valgrind

    官网:http://valgrind.org/info/about.html 百科介绍:http://baike.baidu.com/link?url=ZdXzff0omzoPpE_yZUlNW9lJ ...

  5. CCNA2.0笔记_OSPF v3

    OSPF v3 是可以在ipv6上实现路由的一种路由协议 OSPF v2(for IPv4),OSPF v3(for IPv6)在一台路由器中互相独立运行 OSPF v3与v2有很多类似的功能: - ...

  6. CCNA2.0笔记_子网划分

    http://files.cnblogs.com/files/airoot/%E5%AD%90%E7%BD%91%E5%88%92%E5%88%86.zip 网络 默认子网掩码 A类 255.0.0. ...

  7. mysql获取插入的id主键

    long _retId = -1; Connection con = null; try { con = queryRunner.getDataSource().getConnection(); qu ...

  8. Centos6.X 安装MongoDb

    1.查看linux版本,之所以查看linux版本,是因为centos7和以前版本用的防火墙不一样,安装完mongodb后,需要关闭防火墙(或者其他方法,专业运维人员使用,我们这里为简单,直接关闭即可) ...

  9. pl/sql 实例精解 03

    1. 在Pl/sql 中使用 sql 1: /* 2: * 一个 pl/sql 语句块, 只是一个容器, 是表明一个整体的容器, 容器里可以放置多个sql语句 3: */ 4:   5: declar ...

  10. adb 安装apk到指定手机 登录shell

    电脑链接多个设备时,给指定的设备安装apk, 1. 先查看手机的编码 adb devices 2. adb -s 手机编码 install xxx.apk 如果是无线链接调试状态,adb device ...