0、检查硬件的超线程

由于模型运行时,每个进程几乎都会占用100%的CPU计算能力,开启超线程之后,每个进程最多使用每个核心50%的计算能力,导致程序运行变慢。

1,物理CPU个数:
cat /proc/cpuinfo | grep "physical id" | sort | uniq
2,每个物理CPU的逻辑核数:
cat /proc/cpuinfo | grep "cores" | uniq
3,系统整个cpu线程数:
cat /proc/cpuinfo | grep "processor" | wc -l

1、查看操作系统版本

cat /etc/redhat-release

2、关闭SELinux

修改/etc/sysconfig/selinux确保SELINUX=disabled,

临时关闭:setenforce 0

reboot服务器以生效

3、关闭防火墙

查看防火墙状态:

systemctl status firewalld

临时关闭防火墙:

systemctl stop firewalld

永久关闭防火墙:

systemctl disable firewalld

4、时间同步

在crontab中添加如下

01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service" 

同步的时候,要把ntp服务停掉,同步之后再开启。

手动执行命令

systemctl stop ntpd.service
ntpdate -u time.windows.com
hwclock -w
systemctl start ntpd.service

5、修改节点名称

hostnamectl set-hostname node5

或者修改/etc/hostname,然后重启网卡:

systemctl restart network.service

6、配置集群主机列表

修改/etc/hosts,加入ip和主机名

192.168.126.39 manager
192.168.126.40 node1
192.168.126.41 node2
192.168.126.42 node3
192.168.126.43 node4

7、root用户无密码访问

注意点:所有节点的root密码必须一样

ssh-keygen -t rsa  //.ssh下生成秘钥id_rsa,id_rsa.pub文件
ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1 //将公钥拷贝到node1的authorized_keys中,可以实现管理节点登陆到node1
这个过程中要输入对方机器的密码
cat authorized_keys // 将公钥加到authorized_keys文件里,
scp -rp .ssh root@node4:/root/ //将管理节点的目录,拷贝到计算节点

可以等所有计算节点的公钥都拷贝到管理节点的authorized_keyz中,然后再把管理节点的.ssh目录拷贝到计算节点下,实现所有集群无密码访问。

8、nfs文件共享

NFSv4会有一些不稳定的因素,导致客户端无法读写数据,一定使用v3

下面配置文件代码可以关闭nfs的v4的版本

[root@omgt1 ~]# vim /etc/sysconfig/nfs
# Turn off v4 protocol support
RPCNFSDARGS="-N 4"

查看nfs版本,客户端命令:nfsstat -m

/public from 12.12.12.101:/public
Flags: rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101

服务端:

(1)、服务端安装

yum install nfs-utils

只安装 nfs-utils 即可,rpcbind 属于它的依赖,也会自动安装上。

(2)、配置共享目录

编辑/etc/exports文件,添加1行:

/public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)

将管理节点上的/public目录,共享给192.168.126.*计算节点

权限:

  1. rw: 权限设置,可读可写。
  2. sync: 同步共享目录。
  3. no_root_squash: 可以使用 root 授权。
  4. no_all_squash: 可以使用普通用户授权

(3)、服务开机自启动

systemctl enable rpcbind.service

systemctl enable nfs-server.service

(4)、启动nfs服务、

systemctl start rpcbind.service

systemctl start nfs-server.service

(5)、检查本地共享目录

showmount -e localhost

客户端:

(1)、安装服务

yum install nfs-utils

(2)、设置rpcbind的开机自启动

systemctl enable rpcbind.service

(3)、启动rpcbind服务

systemctl start rpcbind.service

注意:客户端不需要启动nfs服务

(4)、客户端创建目录,然后挂载

mkdir /public
mount -t nfs 192.168.126.39:/public /public

用df -Th 检查是否已经挂载成功

(5)自动挂载命令写到fstab中

编辑/etc/fstab,加上

192.168.126.39:/public /public nfs defaults 0 0

9、普通用户model的无密码访问

依次在管理节点和计算节点上创建用户model,密码保持一致

groupadd -g 200 model,
useradd -d /public/home/model -u 200 -g 200 model
passwd model

这里必须指明同一个组和用户的uid,否则不同的计算节点可能会创建不同的uid,到时候就会识别成不同的用户了

检查方法:cat /etc/passwd,cat /etc/group

id_rsa:私钥  id_rsa.pub:公钥

ssh-keygen -t rsa     //.ssh下生成秘钥id_rsa,id_rsa.pub文件
cat .ssh/id_rsa.pub >> .ssh/authorized_keys //将公钥拷贝到authorized_keys中
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
chmod 600 .ssh/id_rsa
chmod 644 .ssh/id_rsa.pub

因为model账户在公共存储上,各个节点model用户用的同一个家目录,不需要同步.ssh 目录

注意:/public/home/model 用户目录权限为 755 或者 700,就是不能是77x

如果配置之后,还是不能无密码访问,需要进入/var/log/secure查看日志记录信息

10、安装基础软件

yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget

其他问题处理

1、系统无法访问域名

进入 /etc/sysconfig/network-scripts/,

修改网卡配置ifcfg-eth0,增加:

DNS1=8.8.8.8

DNS2=114.114.114,

然后重启网卡:systemctl restart network

2、yum配置

进入yum目录:/etc/yum.repos.d,

将管理节点2个repo拷贝过去

centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)的更多相关文章

  1. Centos7部署Kubernetes集群(单工作节点)+配置dashboard可视化UI

    目标:docker+kubernetes+cadvosor+dashboard 一:物理硬件 两台虚拟机(centos7):一台做为主节点(master),一台做为工作节点(node) [root@M ...

  2. hadoop之完全分布式集群配置(centos7)

    一.基础环境 现在我们有两台虚拟机了,再克隆两台: 克隆好之后需要做三件事:1.更改主机名称 2.修改ip地址 3.将ip地址和对应的主机号加入到/etc/hosts文件中 1.永久修改主机名 hos ...

  3. Springboot 1.5.x 集成基于Centos7的RabbitMQ集群安装及配置

    RabbitMQ简介 RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件). RabbitMQ是一套开源(MPL)的消息队列服务软件,是由LShift提供的一 ...

  4. Springboot 2.0.x 集成基于Centos7的Redis集群安装及配置

    Redis简介 Redis是一个基于C语言开发的开源(BSD许可),开源高性能的高级内存数据结构存储,用作数据库.缓存和消息代理.它支持数据结构,如 字符串.散列.列表.集合,带有范围查询的排序集,位 ...

  5. CentOS7.1.x+Druid 0.12 集群配置

    原文转载自:https://blog.csdn.net/bigtree_3721/article/details/79583008 先决条件:安装版本列表 本次安装满足下面的条件: CentOS v7 ...

  6. Centos7搭建zookeeper集群

    centos7与之前的版本都不一样,修改主机名在/ect/hostname 和/ect/hosts 这两个文件控制 首先修改/ect/hostname vi /ect/hostname 打开之后的内容 ...

  7. Ubuntu_10.04下Hadoop-0.20.2集群配置手册

    Ubuntu_10.04下Hadoop-0.20.2集群配置手册 一.软硬件环境的准备 下面的文章来自hadoopor.com,我先交待一下我自己的环境: 两台机器,每台机器上面两个虚机(vmware ...

  8. Hadoop集群配置(最全面总结)

    Hadoop集群配置(最全面总结) 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta ...

  9. Apache+Tomcat服务器集群配置

    在实际应用中,如果网站的访问量很大,为了提高访问速度,可以与多个Tomcat服务器与Apache服务器集成,让他们共同运行servlet/jsp 组件的任务,多个Tomcat服务器构成了一个集群(Cl ...

  10. 大数据测试之hadoop集群配置和测试

    大数据测试之hadoop集群配置和测试   一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

随机推荐

  1. #期望,树的直径#51nod 1803 森林直径

    题目 有一棵 \(n\) 个结点的树,按顺序给出树边 \((fa[i],i)\), \(Q\) 次询问查询如果只选取第 \([l,r]\) 条树边,问森林的直径 \(fa[i]\) 的生成方式为 \( ...

  2. #笛卡尔树,dp#洛谷 7244 章节划分

    题目 分析 考虑段数受到答案限制,而答案为最大值的约数,那么枚举答案, 设\(dp[i]\)表示前\(i\)个位置分完最多可以分多少段只要\(dp[n]\geq k\)即合法. 那么\(dp[i]=\ ...

  3. OpenHarmony轻量系统中内核资源主要管理方式

    一.背景 OpenAtom OpenHarmony(以下简称"OpenHarmony")轻量系统面向MCU类处理器例如ARM Cortex-M.RISC-V 32位的设备,硬件资源 ...

  4. Pandas通用函数和运算

    Pandas继承了Numpy的运算功能,可以快速对每个元素进行运算,即包括基本运算(加减乘除等),也包括复杂运算(三角函数.指数函数和对数函数等). 通用函数使用 apply和applymap app ...

  5. MOGDB/openGauss索引推荐及虚拟索引

    MOGDB/openGauss 索引推荐及虚拟索引 索引推荐 在 ORACLE 的优化中,可能大家有接触过 SQL Tuning Advisor(SQL 调优顾问,STA),类似的 MOGDB/ope ...

  6. openGauss系统函数添加指导

    openGauss 系统函数添加指导 1.函数架构简介 openGauss 内函数的可以分为两个部分: ​ 身份注册声明:openGauss 中存在一个系统表 pg_proc,这个表存放了所有函数的基 ...

  7. HarmonyOS元服务开发实践:桌面卡片字典

     本文转载分享自华为开发者论坛<HarmonyOS元服务开发实践:桌面卡片字典>,作者:蛟龙腾飞   一.项目说明 1.DEMO创意为卡片字典. 2.不同卡片显示不同内容:微卡.小卡.中卡 ...

  8. 五款最优秀的java微服务框架

    微服务被广泛用于创建多功能的应用程序,通过组合每个功能部分并将它们逐层放在一个单元中.许多人可能没有意识到微服务是一组小型服务中制作单个应用程序的方法,每个服务都独立运行(进程). java微服务框架 ...

  9. c# 反编译对比(旧)

    前言 旧的都是我以前博客的迁移. 我们写代码有时候遇到一些问题,或者我们想优化我们的代码,我们想要看编译后的运行情况,那么反编译是必须要做的一件事. 正文 在此我自己使用的是reflector和ILS ...

  10. StarRocks 集群安装

    当前按照官网上的提供的安装包方式安装,版本是 3.2.2,部署模式为存算一体,安装的操作系统是 Ubuntu 22.04,JDK 版本为 OpenJDK 11,这里选择 3 个节点进行安装,节点的 h ...