1. 概述

slurm任务调度系统,主要应用在HPC集群资源管理和任务调度。具体信息参见slurm官方网站:https://slurm.schedmd.com/
部署Slurm任务调度系统,需要部署NTP内网时间同步服务器,LDAP全局认证服务器,Mysql数据库服务器
本篇博客主要记录如何部署和使用slurm任务调度系统。

1.1 节点信息

节点主机名 操作系统 主机地址 主机角色
node11 centos6.5_x86_64 192.168.10.11 主控制器
node12 centos6.5_x86_64 192.168.10.12 备控制器
node13 centos6.5_x86_64 192.168.10.13 数据存储主控制器
node14 centos6.5_x86_64 192.168.10.14 数据存储备控制器
node15 centos6.5_x86_64 192.168.10.15 MySQL数据库服务器

2. 节点准备

本篇博客的节点,均有已经部署好NTP和LDAP服务客户端的node11克隆,减少部署过程的繁琐。
KVM克隆虚拟机,参见博客《KVM虚拟机管理——虚拟机克隆.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9193910.html
根据博客内容指导,很容易克隆出其他几台虚拟机,提供slurm任务调度环境部署和测试。

3. 部署NTP服务器

笔记内链:《NTP服务部署和测试.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9194004.html
NTP时间服务器部署完成之后,需要同步各个节点的时间。

注:对于节点的NTP同步,可以采用pdsh并行工具完成
pdsh并行工具安装和使用,参见笔记内链:《并行管理工具——pdsh.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9194146.html

4. 部署LDAP服务器

笔记内链:《LDAP-openldap服务部署和测试(YUM安装).md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9193916.html

5. 部署Munge认证服务

笔记内链:《MUNGE服务部署和测试.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9194032.html

6. 部署Mysql数据库服务

本篇博客在node15上安装MySQL数据库
笔记内链:《MySQL数据库服务器(YUM)安装.md
博客园:https://www.cnblogs.com/liwanliangblog/p/9194704.html

7. 部署slurm

7.1 创建slurm用户

需要创建slurmadmin全局用户,用于运行slucrmctld和slurmdbd;
slurmd因为负责节点的状态,因此需要root权限,不需要创建;
同样在LDAP中创建slurmadmin用户
参见博客:《LDAP-openldap服务部署和测试(YUM安装).md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9193916.html

7.2 挂载全局文件系统

在前面的博客中提到,把虚拟机console的/usr/local,作为全局共享目录,通过NFS文件系统实现共享。
在虚拟机console上,需要启动NFS共享。编辑/etc/exports,内容如下图所示:

执行命令:exportfs -r,使得配置的内容生效,通过"exportfs"查看配置是否生效
执行命令:pdsh -a "yum -y install nfs-utils rpcbind",安装挂载NFS需要的软件包
执行命令:pdsh -a "service rpcbind start",开启rpcbind服务,否则挂载会报错
执行命令:pdsh -a "mount -t nfs 192.168.10.8:/usr/local /usr/local",对节点进行NFS文件系统挂载
执行命令:pdsh -a "df -h | grep -w local",对挂载情况进行检查

7.3 slurm下载

从slurm官方网站下载最新版本slurm,下载地址为:https://www.schedmd.com/downloads.php
本篇博客主要部署两个版本

  • slurm-16.05.3.tar.gz 该版本已经被官网废弃,本篇博客因为工作需要继续使用
  • slurm-17.11.7.tar.bz2 截至博客更新时的最新版本

7.4 编译安装

因为规划在node15上部署了MySQL数据库(虚拟机console并未部署MySQL),而在编译slurm时,需要使用到mysql_config,因此需要在node15上进行编译
将slurm-16.05.3.tar.gz拷贝至node15,然后解压,编译,安装

  1. 解压
    执行命令:tar -zxvf slurm-16.05.3.tar.gz -C /tmp
  2. YUM安装依赖环境
    执行命令:yum -y install libgnomeui-devel readline-devel curl-devel
  3. 进入目录,配置configure
    执行以下命令:

    ./configure \
    --prefix=/usr/local/globle/softs/slurm/16.05.3 \
    --sysconfdir=/usr/local/globle/softs/slurm/16.05.3/etc \
    --localstatedir=/var \
    --enable-pam \
    --enable-memory-leak-debug \
    --enable-front-end --enable-salloc-kill-cmd \
    --enable-simulator \
    --enable-multiple-slurmd \
    --with-pam_dir=/lib64 \
    --with-zlib \
    --with-rrdtool \
    --with-mysql_config=/usr/lib64/mysql/ \
    --with-munge=/usr/local/globle/softs/munge/0.5.12/ \
    --with-ssl \
    --with-libcurl

    注:上述部分--with选项,实际并没有编译。通过查看config.log的WARNING可以确认是否安装。mysql_config指定的是mysql_config的路径,而非文件

  4. 编译安装
    执行命令make进行编译,执行命令make install进行安装
  5. 创建配置文件目录
    上述过程完成后,可以在/usr/local/globle/softs/slurm下查看已经安装的目录,但是此时该目录下并没有etc,log,state等目录,因此需要手动创建
    执行命令:mkdir etc log state
    修改目录属性:chmod 777 log
  6. 拷贝配置文件模板
    在源码目录下的etc目录中,存放着配置文件的模板文件
    执行命令:cp slurm.conf.example cgroup.conf.example slurmdbd.conf.example /usr/local/globle/softs/slurm/16.05.3/etc/

8. slurm配置

详细的配置文件参数详解,参见官方提供的文档:https://slurm.schedmd.com/slurm.conf.html

8.1 配置slurm.conf

编辑slurm集群主配置文件:/usr/local/globle/softs/slurm/16.05.3/etc/slurm.conf
笔记内链:《slurm.conf系统初始配置.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9201624.html

8.2 配置slurmdbd.conf

编辑slurm集群数据库主配置文件:/usr/local/globle/softs/slurm/16.05.3/etc/slurmdbd.conf
笔记内链:《slurmdbd.conf系统初始配置.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9201634.html

8.3 配置cgroup.conf

编辑slurm集群cgroup机制配置文件:/usr/local/globle/softs/slurm/16.05.3/etc/cgroup.conf
笔记内链:《cgroup.conf系统初始配置.md
博客园地址:https://www.cnblogs.com/liwanliangblog/p/9201639.html

8.4 配置数据库和测试

本篇博客前面部分已经在虚拟机node15上创建了MySQL数据库。

8.4.1 node15创建数据库并授权

在node15上,执行:mysql -uroot -p,输入密码进入数据库系统
创建数据库:create database slurm_acct_db;
授权node13访问:grant all privileges on slurm_acct_db.* to 'slurmadmin'@'192.168.80.13' identified by 'liwanliang';
授权node14访问:grant all privileges on slurm_acct_db.* to 'slurmadmin'@'192.168.80.14' identified by 'liwanliang';
刷新授权表:flush privileges;

8.4.2 测试连接

在node13和node14节点,分别进行MySQL数据库的连接。这要求node13和node14必须安装了mysql软件包。
在node13和node14上,分别执行:rpm - qa |grep mysql查看是否安装mysql软件包。若未安装,执行:yum -y install mysql安装
在node14和node14上,分别执行:mysql -h 192.168.80.15 -uslurmadmin -p,输入密码进行数据库连接测试。
进入数据库之后,执行:show databases;查看是否存在slurm_acct_db数据库,验证数据库授权是否正确。

9. slurm启动

9.1 启动数据库存储服务slurmdbd

可以采用slurmdbd -vvvvDDDD,进行调试启动,查看是否启动过程中有无错误。若无错误,可以以绝对路径的方式启动进程。
slurmdbd存在主备节点,node13作为slurmdbd主节点。若配置文件中未配置slurmdbd的备份节点,则在node14上无法启动slurmdbd。
如需启动,需要修改配置文件。
注:在线使用过程中,如果修改了slurmdbd.conf配置,可以通过sacctmgr reconfig重新加载配置文件。前提是配置文件不能够出现错误,否则会造成当前在线的服务over

9.2 注册集群信息

在启动控制器slurmctld之前,需要将slurm.conf中配置的slurm集群名称添加到数据库中。
否则会在启动slurmctld时,提示未注册集群。
执行命令:/usr/local/globle/softs/slurm/16.05.3/bin/sacctmgr add cluster myslurm,根据提示输入y即可在slurmdbd中,注册集群名称
验证。执行命令:/usr/local/globle/softs/slurm/16.05.3/bin/sacctmgr show cluster,即可查看当前注册的slurm集群信息。

9.3 启动控制器slurmctld

在节点node11上,执行命令:slurmctld -vvvvDDDD,进行调试启动,查看启动过程中是否存在错误,若无错误,则可以后台启动。
在节点node12上,执行同样的命令,即可启动slurmctld的备份控制器。具体使用和测试,参见《Slurm任务调度系统部署和测试(源码)(2).md》。
注:在线使用过程中,如果修改了slurmctld.conf配置,可以通过scontrol reconfig重新加载配置文件。前提是配置文件不能够出现错误,否则会造成当前在线的服务over

10. 错误及解决

10.1 未安装编译器

如下图提示,执行命令:yum -y install gcc gcc-c++ automake autoconf

10.2 未发现PAM库路径

如下图提示,执行命令:find / -name libpam.so*,可确认系统中是否存在pam库,并且能够确认路径,然后在configure配置的--with-pam_dir=/lib64

10.3 启动slurmdbd日志报错

在交互式调式结束后,结束slurmdbd进程。然后直接启动时,从slurmdbd的日志报错如下图所示:

10.4 节点状态DOWN

在完全配置成功之后,节点启动了slurmd,但是通过sinfo看到的节点状态始终为down。同步了节点时间,关闭节点防火墙和selinux均为解决问题。
最后通过查阅官方的FAQ,详细的FAQ地址:https://slurm.schedmd.com/faq.html。最后把slurm.conf中的ReturnToService=0改为ReturnToService=2解决

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

 

Slurm任务调度系统部署和测试(源码)(1)的更多相关文章

  1. slurm任务调度系统部署和测试(一)

    1.概述 本博客通过VMware workstation创建了虚拟机console,然后在console内部创建了8台kvm虚拟机,使用这8台虚拟机作为集群,来部署配置和测试slurm任务调度系统. ...

  2. slurm-16.05.3任务调度系统部署与测试(1)

      1.概述2.同步节点时间3.下载并解压文件4.编译安装munge-0.5.125.配置munge6.编译安装slurm-16.05.37.配置slurm8.配置MySQL数据库环境9.启动slur ...

  3. checkpoint-BLCR部署和测试(源码)

    1. 概述2. 部署过程2.1 源码下载2.2 解压安装2.3 添加库环境2.4 插入内核模块3. 测试3.1 创建测试程序3.2 功能测试4. 参考博客 1. 概述 checkpoint 2. 部署 ...

  4. Linux下使用FreeTDS访问MS SQL Server 2005数据库(包含C测试源码)

    Linux下使用FreeTDS访问MS SQL Server 2005数据库(包含C测试源码) http://blog.csdn.net/helonsy/article/details/7207497 ...

  5. IO系列测试源码

    //IO系列测试源码(需要自取) using System; using System.CodeDom; using System.Collections.Generic; using System. ...

  6. 18个示例详解 Spring 事务传播机制(附测试源码)

    什么是事务传播机制 事务的传播机制,顾名思义就是多个事务方法之间调用,事务如何在这些方法之间传播. 举个例子,方法 A 是一个事务的方法,方法 A 执行的时候调用了方法 B,此时方法 B 有无事务以及 ...

  7. 使用Jenkins+Pipline 持构建自动化部署之安卓源码打包、测试、邮件通知

    一.引言 Jenkins 2.x的精髓是Pipeline as Code,那为什么要用Pipeline呢?jenkins1.0也能实现自动化构建,但Pipeline能够将以前project中的配置信息 ...

  8. 使用Jenkins+Blue Ocean 持构建自动化部署之安卓源码打包、测试、邮件通知

    什么是BlueOcean? BlueOcean重新考虑了Jenkins的用户体验.BlueOcean由Jenkins Pipeline设计,但仍然兼容自由式工作,减少了团队成员的混乱,增加了清晰度. ...

  9. 一个简单的IM系统(Demo附源码)-- ESFramework 4.0 快速上手(08)

    前面的文章已经介绍完了基于ESFramework/ESPlus进行二次开发的所有要点,现在,我们可以开始小试牛刀了. 本文将介绍使用ESFramework的Rapid引擎开发的两个最简单的Demo,E ...

随机推荐

  1. linux下zip文件解压乱码的问题

    因为编码问题,zip文件中的中文文件在linux下解压会出现乱码 如果你使用archlinux那么使用AUR安装unzip-natspec就可以解决这个问题 https://aur.archlinux ...

  2. 洗礼灵魂,修炼python(16)--列表进阶话题—>上节作业讲解+copy模块,浅拷贝,深拷贝

    上节课后作业: 1.使用列表解析输出结果:[(0,0),(0,2),(2,0),(2,2)] 方法1: 方法2: 方法3: 2.使用列表生成器打印斐波那契数列 3.使用列表解析生成列表[1x2,3x4 ...

  3. Python零基础学习系列之三--Python编辑器选择

    上一篇文章记录了怎么安装Python环境,同时也成功的在电脑上安装好了Python环境,可以正式开始自己的编程之旅了.但是现在又有头疼的事情,该用什么来写Python程序呢,该用什么来执行Python ...

  4. gitlab hooks配置

    1.邮件格式过滤 pre-recieive rev_type=commit # Only check the first commit information due to a lot of comm ...

  5. [HDFS_add_2] SecondaryNameNode 滚动 NameNode 数据流程

    0. 说明 在 将 SecondaryNameNode 配置到 s105 节点上 的基础上进行 SecondaryNameNode 滚动 NameNode 数据流程 分析 1. SecondaryNa ...

  6. 【PAT】B1036 跟奥巴马一起编程(15)(15 分

    #include<stdio.h> int main() { int row,col; char c; scanf("%d %c",&col,&c); ...

  7. Pair Programming 2

    学生-社团匹配程序 项目流程: 1. 分析讨论 2. 分工合作 3. 代码规范 4. 编码实现 5. 模块结合 6. 测试修改 7. 数据样例 8. 心得体会 9. GitHub链接 结对队友:陈文举 ...

  8. visual studio code前端插件及常用快捷键【转】

    通用插件 HTML Snippets 超级实用且初级的 H5代码片段以及提示 HTML CSS Support 让 html 标签上写class 智能提示当前项目所支持的样式新版已经支持scss文件检 ...

  9. vue.js 传参 href传参 与router-link传参

    每天学习一点点 编程PDF电子书免费下载: http://www.shitanlife.com/code 1. <a v-bind:href="'#/appinfo/'+cateApp ...

  10. Java Web 项目目录结构

    为了使 Web 容器顺利地执行 Web 应用,开发者需要以一种标准的方式将 Web 项目中的资源(Servlets.JSP 等)打包.一个 Web 项目的目录结构可分为两种: 发布目录结构 Web 容 ...