分布式计算课程补充笔记 part 1.5
▶ 编写 SLURM 脚本
#!/bin/bash
#SBATCH -J name # 任务名
#SBATCH -p gpu # 分区名,可为 cpu 或 gpu
#SBATCH -N # 节点数
#SBATCH --ntasks-per-node= # 单节点进程数
#SBATCH --cpus-per-task= # 单进程 CPU 核心数
#SBATCH -o output.log # 标准输出文件
#SBATCH -t -:: # 运行最长时间
#SBATCH --gres=gpu: # 申请的 GPU 卡数,只能在 -p 为 gpu 时填写 # 要运行的命令
▶ 检查任务状态
sinfo # 查看各个分区状态
sinfo -lN # 查看节点状态
squeue # 查看任务状态
scancel JOBID / scancel -u username # 取消任务
▶ 交互式任务提交
● 申请交互式资源:① ssh 直连节点(如 ssh cu01),获取新 bash;② 完成交互式计算任务;③ exit 退出到登录节点,再次 exit 命令退出 bash,并释放资源
● salloc 用法(参数名与脚本式提交相同)
salloc -N -p cpu -c -t :: # 申请 台 cpu 分区的节点,每个线程 核心,占用时间 小时
▶ module 相关
module avail # 查看所有软件模块
module list # 查看当前已经加载的模块
module add m1 m2 m3 ... # 添加模块
module remove m1 m2 m3 ... # 删除模块
module purge # 删除所有
module swap m1 m2 # 交换模块(m1 → m2)
▶ conda 是 anaconda 软件的包管理器和环境管理器
conda create -n ENVNAME # 创建 conda 环境
source activate ENVNAME # 激活环境
(ENVNAME) conda install package1 = x.y.z # 在已经激活的环境里安装包
(ENVNAME) pip install package1 == x.y.z # 安装了 python 后可用 pip
(ENVNAME) source deactivate # 退出环境
conda env remove -n ENVNAME # 删除环境(当前环境不能处于激活状态)
分布式计算课程补充笔记 part 1.5的更多相关文章
- 分布式计算课程补充笔记 part 4
▶ 并行通讯方式: map 映射 全局一到一 全局单元素计算操作 transpose 转置 一到一 单元素位移 gather 收集 多到一 元素搬运不计算 scatter 分散 一到多 元素搬运不计算 ...
- 分布式计算课程补充笔记 part 2
▶ 并行计算八字原则:负载均衡,通信极小 ▶ 并行计算基本形式:主从并行.流水线并行.工作池并行.功能分解.区域分解.递归分治 ▶ MPI 主要理念:进程 (process):无共享存储:显式消息传递 ...
- 分布式计算课程补充笔记 part 1
▶ 高性能计算机发展历程 真空管电子计算机,向量机(Vector Machine),并行向量处理机(Parallel Vector Processors,PVP),分布式并行机(Parallel Pr ...
- 分布式计算课程补充笔记 part 3
▶ OpenMP 的任务并行 (task parallelism):显式定义一系列可执行的任务及其相互依赖关系,通过任务调度的方式多线程动态执行,支持任务的延迟执行 (deferred executi ...
- (转载)林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
- 03、同事分享课程的笔记 —《Android应用低功耗设计》
这是安卓组的同事一个月前分享的一节课程,听课时写了一下笔记,之前是写在本子上的,感觉内容挺不错 的,就保存在博客了吧,方便回看. 他曾经在就职于英特尔公司,是与芯片设计相关的,这课程标题虽然是与安卓相 ...
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
- 分布式计算框架学习笔记--hadoop工作原理
(hadoop安装方法:http://blog.csdn.net/wangjia55/article/details/53160679这里不再累述) hadoop是针对大数据设计的一个计算架构.如果你 ...
- [基础]斯坦福cs231n课程视频笔记(三) 训练神经网络
目录 training Neural Network Activation function sigmoid ReLU Preprocessing Batch Normalization 权重初始化 ...
随机推荐
- Backpack VI
Given an integer array nums with all positive numbers and no duplicates, find the number of possible ...
- vue初体验-ES6 基础知识补充 let 和const
本人水平有限,如内容有误,欢迎指正,谢谢. let : 主要特点: 1.作用域只局限于当前代码块.2.使用let 声明的变量作用域不会被提升.3.在相同的作用域下不能声明相同的变量.4.for循环体 ...
- Delphi xe8 FMX StringGrid根据内容自适应列宽。
Delphi xe8 FMX StringGrid根据内容自适应列宽. 网上的资料比较复杂,而且不是根据字体字号等设置列宽.故自己写了个function来用. function GetColMaxDa ...
- 解决启动vs2010 未能找到自动配置的设置文件
今天室友把固态拆掉,重新安上.打开vs2010出现 打开项目,出现 找了许多方法都无效. 发现c:user\Administer\documents\下,vs2010 .vs webset 那些文件点 ...
- 1.oracle之表管理sql
/*数据类型1. number(M,N) 整数位和小数位最多是M,其中小数位为N位2. char(M):定长字符串,长度为M,如果插入数据时长度小于M,则在末尾补上空格3. varchar2(M) ...
- 2017-2018 ACM-ICPC, NEERC A题Automatic Door 挺棘手的模拟
题目链接:http://codeforces.com/contest/883/problem/A 题意大致就是有一个门,有n个人有规律的来,时刻分别是a,2a,3a.....na.有m个人无规律的来, ...
- 使用 jest 测试 react component 的配置,踩坑。
首先安装依赖 npm i jest -g npm i jest babel-jest identity-obj-proxy enzyme enzyme-adapter-react-15.4 react ...
- angular引用echarts插件
方法一 1. 命令行下载 npm install echarts --savenpm install ngx-echarts --save 2. angular.json 配置echarts路径. 2 ...
- 【SpringBoot】SpringBoot拦截器实战和 Servlet3.0自定义Filter、Listener
=================6.SpringBoot拦截器实战和 Servlet3.0自定义Filter.Listener ============ 1.深入SpringBoot2.x过滤器Fi ...
- PHPSTORM ACTIVATION 注册激活
最近新出了PHPSTORM10,于是把自己机器上的升级了下.这家伙收费的,国人嘛...你懂的. 安装后,发现不能用原来的keygen注册激活了,于是Google了一下,下面是解决方案: 安装好打开的时 ...