centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)
0、检查硬件的超线程
由于模型运行时,每个进程几乎都会占用100%的CPU计算能力,开启超线程之后,每个进程最多使用每个核心50%的计算能力,导致程序运行变慢。
1,物理CPU个数:
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2,每个物理CPU的逻辑核数:
cat /proc/cpuinfo | grep "cores" | uniq
3,系统整个cpu线程数:
cat /proc/cpuinfo | grep "processor" | wc -l
1、查看操作系统版本
cat /etc/redhat-release
2、关闭SELinux
修改/etc/sysconfig/selinux确保SELINUX=disabled,
临时关闭:setenforce 0
reboot服务器以生效
3、关闭防火墙
查看防火墙状态:
systemctl status firewalld
临时关闭防火墙:
systemctl stop firewalld
永久关闭防火墙:
systemctl disable firewalld
4、时间同步
在crontab中添加如下
01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service"
同步的时候,要把ntp服务停掉,同步之后再开启。
手动执行命令
systemctl stop ntpd.service
ntpdate -u time.windows.com
hwclock -w
systemctl start ntpd.service
5、修改节点名称
hostnamectl set-hostname node5
或者修改/etc/hostname,然后重启网卡:
systemctl restart network.service
6、配置集群主机列表
修改/etc/hosts,加入ip和主机名
192.168.126.39 manager
192.168.126.40 node1
192.168.126.41 node2
192.168.126.42 node3
192.168.126.43 node4
7、root用户无密码访问
注意点:所有节点的root密码必须一样
ssh-keygen -t rsa //.ssh下生成秘钥id_rsa,id_rsa.pub文件
ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1 //将公钥拷贝到node1的authorized_keys中,可以实现管理节点登陆到node1
这个过程中要输入对方机器的密码
cat authorized_keys // 将公钥加到authorized_keys文件里,
scp -rp .ssh root@node4:/root/ //将管理节点的目录,拷贝到计算节点
可以等所有计算节点的公钥都拷贝到管理节点的authorized_keyz中,然后再把管理节点的.ssh目录拷贝到计算节点下,实现所有集群无密码访问。
8、nfs文件共享
NFSv4会有一些不稳定的因素,导致客户端无法读写数据,一定使用v3
下面配置文件代码可以关闭nfs的v4的版本
[root@omgt1 ~]# vim /etc/sysconfig/nfs
# Turn off v4 protocol support
RPCNFSDARGS="-N 4"
查看nfs版本,客户端命令:nfsstat -m
/public from 12.12.12.101:/public
Flags: rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101
服务端:
(1)、服务端安装
yum install nfs-utils
只安装 nfs-utils 即可,rpcbind 属于它的依赖,也会自动安装上。
(2)、配置共享目录
编辑/etc/exports文件,添加1行:
/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)
将管理节点上的/public目录,共享给192.168.126.*计算节点
权限:
rw: 权限设置,可读可写。sync: 同步共享目录。no_root_squash: 可以使用 root 授权。no_all_squash: 可以使用普通用户授权
(3)、服务开机自启动
systemctl enable rpcbind.service systemctl enable nfs-server.service
(4)、启动nfs服务、
systemctl start rpcbind.service systemctl start nfs-server.service
(5)、检查本地共享目录
showmount -e localhost
客户端:
(1)、安装服务
yum install nfs-utils
(2)、设置rpcbind的开机自启动
systemctl enable rpcbind.service
(3)、启动rpcbind服务
systemctl start rpcbind.service
注意:客户端不需要启动nfs服务
(4)、客户端创建目录,然后挂载
mkdir /public
mount -t nfs 192.168.126.39:/public /public
用df -Th 检查是否已经挂载成功
(5)自动挂载命令写到fstab中
编辑/etc/fstab,加上
192.168.126.39:/public /public nfs defaults 0 0
9、普通用户model的无密码访问
依次在管理节点和计算节点上创建用户model,密码保持一致
groupadd -g 200 model,
useradd -d /public/home/model -u 200 -g 200 model
passwd model
这里必须指明同一个组和用户的uid,否则不同的计算节点可能会创建不同的uid,到时候就会识别成不同的用户了
检查方法:cat /etc/passwd,cat /etc/group
id_rsa:私钥 id_rsa.pub:公钥
ssh-keygen -t rsa //.ssh下生成秘钥id_rsa,id_rsa.pub文件
cat .ssh/id_rsa.pub >> .ssh/authorized_keys //将公钥拷贝到authorized_keys中
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
chmod 600 .ssh/id_rsa
chmod 644 .ssh/id_rsa.pub
因为model账户在公共存储上,各个节点model用户用的同一个家目录,不需要同步.ssh 目录
注意:/public/home/model 用户目录权限为 755 或者 700,就是不能是77x
如果配置之后,还是不能无密码访问,需要进入/var/log/secure查看日志记录信息
10、安装基础软件
yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget
其他问题处理
1、系统无法访问域名
进入 /etc/sysconfig/network-scripts/,
修改网卡配置ifcfg-eth0,增加:
DNS1=8.8.8.8
DNS2=114.114.114,
然后重启网卡:systemctl restart network
2、yum配置
进入yum目录:/etc/yum.repos.d,
将管理节点2个repo拷贝过去
centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)的更多相关文章
- Centos7部署Kubernetes集群(单工作节点)+配置dashboard可视化UI
目标:docker+kubernetes+cadvosor+dashboard 一:物理硬件 两台虚拟机(centos7):一台做为主节点(master),一台做为工作节点(node) [root@M ...
- hadoop之完全分布式集群配置(centos7)
一.基础环境 现在我们有两台虚拟机了,再克隆两台: 克隆好之后需要做三件事:1.更改主机名称 2.修改ip地址 3.将ip地址和对应的主机号加入到/etc/hosts文件中 1.永久修改主机名 hos ...
- Springboot 1.5.x 集成基于Centos7的RabbitMQ集群安装及配置
RabbitMQ简介 RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件). RabbitMQ是一套开源(MPL)的消息队列服务软件,是由LShift提供的一 ...
- Springboot 2.0.x 集成基于Centos7的Redis集群安装及配置
Redis简介 Redis是一个基于C语言开发的开源(BSD许可),开源高性能的高级内存数据结构存储,用作数据库.缓存和消息代理.它支持数据结构,如 字符串.散列.列表.集合,带有范围查询的排序集,位 ...
- CentOS7.1.x+Druid 0.12 集群配置
原文转载自:https://blog.csdn.net/bigtree_3721/article/details/79583008 先决条件:安装版本列表 本次安装满足下面的条件: CentOS v7 ...
- Centos7搭建zookeeper集群
centos7与之前的版本都不一样,修改主机名在/ect/hostname 和/ect/hosts 这两个文件控制 首先修改/ect/hostname vi /ect/hostname 打开之后的内容 ...
- Ubuntu_10.04下Hadoop-0.20.2集群配置手册
Ubuntu_10.04下Hadoop-0.20.2集群配置手册 一.软硬件环境的准备 下面的文章来自hadoopor.com,我先交待一下我自己的环境: 两台机器,每台机器上面两个虚机(vmware ...
- Hadoop集群配置(最全面总结)
Hadoop集群配置(最全面总结) 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta ...
- Apache+Tomcat服务器集群配置
在实际应用中,如果网站的访问量很大,为了提高访问速度,可以与多个Tomcat服务器与Apache服务器集成,让他们共同运行servlet/jsp 组件的任务,多个Tomcat服务器构成了一个集群(Cl ...
- 大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试 一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
随机推荐
- ET介绍——分布式Actor模型
Actor模型 Actor介绍 在讨论Actor模型之前先要讨论下ET的架构,游戏服务器为了利用多核一般有两种架构,单线程多进程跟单进程多线程架构.两种架构本质上其实区别不大,因为游戏逻辑开发都需要用 ...
- #分块,二分#洛谷 5356 [Ynoi2017] 由乃打扑克
题目 支持区间加和区间查询第 \(k\) 小 分析 分块之后给每个整块排序,这样修改的时候整块打标记,散块直接分开把需要加的部分暴力加之后归并,就是 \(O(\sqrt{n})\) 的 查询的话,如果 ...
- java 校验同一张表某个字段值不能重复
例如 一个实体 user 校验name名字不能重复 思路 1.新增:时比较容易做 直接根据传来的参数 查询实体如果不为空 则查询到了重复值 2.修改:修改需要考虑较多 2.1.既然是不重复 必然是必 ...
- 第二十篇:cookie和session
一.Cookie是什么鬼 二.基于cookie实现用户登录 三.基于cookie实现定制显示数据条数 四.带签名的cookie 五.CBV和FBV用户认证装饰器
- 可视化学习:使用WebGL绘制圆形,实现色盘
前言 在Canvas2D中实现圆形的绘制比较简单,只要调用arc指令就能在Canvas画布上绘制出一个圆形,类似的,在SVG中我们也只需要一个<circle>标签就能在页面上绘制一个圆形. ...
- Causal Inference理论学习篇-Tree Based-Causal Tree
Tree-Based Algorithms Tree-based这类方法,和之前meta-learning 类的方法最明显的区别是: 这类方法把causal effect 的计算显示的加入了到了树模型 ...
- APISIX 简单的自定义插件开发步骤
本文基于 APISIX 3.2 版本进行插件开发并运行通过. APISIX 目前开发插件比较简单,只需要编写 Lua 源代码并放到默认的插件目录下,然后通过配置文件开启插件即可,我们如果使用 Dock ...
- D365虚拟机安装
原本有本地VM是2023.3.31安装的,奈何微软不断升级,导致程序一些新特性用不到,例如: 1,Master Planning ---> Planning Optimization, 2,mi ...
- DC-1渗透靶场实战速通版
"感谢您阅读本篇博客!如果您觉得本文对您有所帮助或启发,请不吝点赞和分享给更多的朋友.您的支持是我持续创作的动力,也欢迎留言交流,让我们一起探讨技术,共同成长!谢谢!" 文章为速通 ...
- 在kubernetes集群中使用虚拟节点创建1万Pod-支持在线教育业务
使用虚拟节点提升k8s集群容量和弹性 在kubernetes集群中添加虚拟节点的方式已被非常多的客户普遍使用,基于虚拟节点可以极大提升集群的Pod容量和弹性,灵活动态的按需创建ECI Pod,免去集群 ...