slurm使用
官方文档:https://slurm.schedmd.com/
用户命令cheatsheet:https://slurm.schedmd.com/pdfs/summary.pdf
占用GPU
salloc -n 8 -N 1 --gres=gpu:8 --partition=matrix1
-n
CPU数
-N
节点数
-gres=gpu:8
8个GPU
--partition=matrix1
在集群1
释放占用的GPU
ctrl+D
启动批处理脚本
sbatch
查看任务队列
squeue
一般squeue | grep xxx(查看本集群的等待队列时一般grep matrix)
几列依次是:
任务id、集群id、用户权限、用户名、任务状态(R-running,PD-padding),任务已经运行的时间,占用节点数,分配的节点的ip(如果尚未分配节点则显示任务优先级)

杀死任务
scancel
设置正常输出
--output
设置错误输出
--error
脚本编写:
#!/bin/bash
###SBATCH参数以#开头,非注释! #SBATCH --job-name=xxxx
###作业名称 #SBATCH --nodes=
###使用节点数量 #SBATCH --ntasks=
###总的进程数(CPU核数) #SBATCH --ntasks-per-node=
###每个节点的进程数,1个节点此项无需指定 #SBATCH --gres=gpu:
###每个节点使用的GPU数量,CPU作业此项此项无需指定 ##SBATCH --mem=10G
###申请预留内存大小,可选项 #SBATCH --partition=matrix1
###使用的分区,目前有n个集群分区 ##SBATCH --workdir=/share/admin
###作业的工作目录,输出log在此路径
###此路径必须是NFS共享目录 #SBATCH --output=%j.out
###作业错误输出文件,%j代表作业ID #SBATCH --error=%j.err
###作业正确输出文件 ##SBATCH --begin=:
###作业开始执行时间,默认立即执行,可选项 ##SBATCH --deadline=:
###作业强制终止时间,可选项 ##SBATCH --mail-type=end
###邮件通知类型start/end/failed,end表示作业结束时邮件通知,可选项 ##SBATCH --mail-user=xx@xx
###邮件通知邮箱,可选项 module load xxx
###加载环境 echo -e "JOB NAME:$SLURM_JOB_NAME,Job ID:$SLURM_JOBID,Allocate Nodes:$SLURM_JOB_NODELIST"
###显示作业名称,作业ID,使用节点 mpirun caffe train -solver ./solver.prototxt -gpu all -weights ./model1.bin,./model2.bin
###训练
##mpirun caffe train -solver ./solver.prototxt -gpu all -snapshot ./_iter_3000.solverstate
###finetune
###执行的程序,MPI作业,直接使用mpirun #srun ./test
###执行的程序,普通作业,使用srun
slurm使用的更多相关文章
- slurm任务调度系统部署和测试(一)
1.概述 本博客通过VMware workstation创建了虚拟机console,然后在console内部创建了8台kvm虚拟机,使用这8台虚拟机作为集群,来部署配置和测试slurm任务调度系统. ...
- slurm作业提交系统常用命令
写下自己的关于slurm感悟一二 与各人pc不同,slurm的基本架构是,一个中专节点,之后有很多局域网ip对应不同的计算节点,在中专节点敲命令,命令中可以指定需要用到哪些计算节点 1. 查看有哪些分 ...
- slurm用户快速入门手册
1. 概述2. 架构3. 命令3.1 sacct3.2 sattach3.4 sbatch3.5 sbcast3.6 scancel3.7 scontrol3.8 sinfo3.9 smap3.10 ...
- slurm.conf系统初始配置
#slurm集群配置 ##集群名称 ClusterName=myslurm ##主控制器的主机名 ControlMachine=node11 ##主控制器的IP地址 ControlAddr=192.1 ...
- Slurm任务调度系统部署和测试(源码)(1)
1. 概述1.1 节点信息2. 节点准备3. 部署NTP服务器4. 部署LDAP服务器5. 部署Munge认证服务6. 部署Mysql数据库服务7. 部署slurm7.1 创建slurm用户7.2 挂 ...
- CentOS 7 install slurm cluster
//slurm install //CentOS 7 system //192.168.159.141 node01 //192.168.159.142 node02 systemctl stop f ...
- 学习笔记之Slurm
Slurm Workload Manager - Overview https://slurm.schedmd.com/overview.html Slurm is an open source, f ...
- 在.slurm文件中激活Anaconda环境
超算中心使用slurm作为集群调度.原始slurm脚本如下: source activate tensorflow-gpu python neural_style.py --content conte ...
- linux commands
abrt-cli --since ;查看abrt捕捉的异常 alias ;别名,alias rm='rm -i':使用“ \rm ” 使用原命令 alsamixer ;图形音量调节,q 增加左声道, ...
随机推荐
- [na] centos如何通过vmware Windows共享文件
参考 自我感觉都会使用Windows中的文件.在Windows与linux之间互传文件是一个问题.本方法介绍的是在linux下挂载Windows共享文件夹的方法来实现的 首先安装VMware Tool ...
- [svc]几种访问google方案
最近老被人问起,有什么访问谷歌的方法可以推荐. 针对小白用户(使用sass式即可) iass sass pass区别 小白可以用(无需安装软件,些许收费):googlegae: https://m.2 ...
- makefile之patsubst函数
格式:$(patsubst pattern,replacement,text) 名称:模式字符串替换函数--patsubst. 功能:查找text中的单词(单词以"空格".&quo ...
- Ajax同步与异步优缺点与使用
一.什么是同步请求:(false) 同步请求即是当前发出请求后,浏览器什么都不能做,必须得等到请求完成返回数据之后,才会执行后续的代码,相当于是排队,前一个人办理完自己的事务,下一个人才能 ...
- C++类成员指针(指向类成员的指针)
1.指向类的数据成员的指针: 声明格式如下: <类型说明符> <类名>::* <指针变量名>; 2.指向类的成员函数的指针: 声明格式如下: <类型说明符 ...
- vim语法高亮插件编写
# vim语法高亮插件编写 编写vim语法高亮插件很简单,只需要编写两个文件.vim放到vim的安装目录下的目录就可以了. ## 输出------------------------------ sy ...
- vi/vim 光标移动命令
vi/vim 光标移动命令 移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以 ...
- linux学习笔记2---命令cd
Linux cd 命令可以说是Linux中最基本的命令语句,其他的命令语句要进行操作,都是建立在使用 cd 命令上的.cd命令比较简单,但是有一些技巧还是值得学习的. 所以,学习Linux 常用命令, ...
- unix基础杂谈
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/ ...
- cadence制作封装要素
cadence中封装制作完成后必须包含的元素: 1. 引脚. 2. 零件外形,轮廓线.package geometry->silkscreen_top, assembly_top. 3. 参考编 ...