OpenMPI 集群配置

现在有2台机器，希望可以尝试一下在多台机器上跑MPI的感觉，所以跑之前就得配置，先参考网址:

https://www.cnblogs.com/awy-blog/p/3402949.html:

1. 配置自动ssh登录

这里主要是要各个机器之间能无密码访问，主要用到的就是SSH，因此需要一些设置。

首先，我们需要导出各个节点的公钥和私钥：

$ ssh-keygen -t rsa

在运行过程中，会提示你输入这个输入那个，不用管那么多，直接回车就完了。等运行结束后，进入.ssh目录，你会看到公钥和私钥文件；

$ cd ~/.ssh

$ ls

id_rsa   id_rsa.pub

其中id_rsa就是私钥，id_rsa.pub就是公钥，现在我们需要把各个节点上的公钥都集中发送到一个节点上，来制作授权文件（authorized_keys）.

注意：在两台机器必须安装ssh（sudo apt-get install ssh openssh-server）而且必须设置root密码(sudo passwd root),才能远程登录

$ scp ~/.ssh/id_rsa.pub node1:~/.ssh/1.pub

在将 node2 的公钥文件拷贝到 node1 后，在node1-ubuntu进行如下处理，制作好文件 authorized_keys ：

$ cp ~/.ssh/id_rsa.pub authorized_keys

$ cat ~/.ssh/1.pub >> authorized_keys

在node1 上制作好的authorized_keys拷贝到node2上：(node1使用scp)

$ scp ~/.ssh/authorized_keys node2:~/.ssh/

要想让这两台机器无密码登录，所以我们需要更改一下必要的文件的权限（所有节点都要更改）：其实只要保证authorized_keys的文件权限为600或者644

$ chmod 755 ~

$ chmod 755 ~/.ssh

$ chmod 600 ~/.ssh/authorized_keys

$ chmod 600 ~/.ssh/id_rsa

$ chmod 644 ~/.ssh/id_rsa.pub

至此，SSH配置就完成了。下面检验一下：

在一个主机上面SSH另一个主机 ( 不需要账号和密码 ) ：

$ ssh node1

现在2台机器已经可以自由的SSH登陆了！

2. MPI运行环境配置

执行了configure命令之后，

./configure --prefix=/home/<USERNAME>/openmpi  >& | tee install1.log

提示:

Open MPI configuration:

-----------------------

Version: 3.0.

Build MPI C bindings: yes

Build MPI C++ bindings (deprecated): no

Build MPI Fortran bindings: no

MPI Build Java bindings (experimental): no

Build Open SHMEM support: yes

Debug build: no

Platform file: (none)

Miscellaneous

-----------------------

CUDA support: no

Transports

-----------------------

Cray uGNI (Gemini/Aries): no

Intel Omnipath (PSM2): no

Intel SCIF: no

Intel TrueScale (PSM): no

Mellanox MXM: no

Open UCX: no

OpenFabrics Libfabric: no

OpenFabrics Verbs: no

Portals4: no

Shared memory/copy in+copy out: yes

Shared memory/Linux CMA: yes

Shared memory/Linux KNEM: no

Shared memory/XPMEM: no

TCP: yes

Resource Managers

-----------------------

Cray Alps: no

Grid Engine: no

LSF: no

Moab: no

Slurm: yes

ssh/rsh: yes

Torque: no

这里可以看到我们支持的通信协议和资源管理器支持只ssh

编译和安装的命令:

make all >& | tee make.log

make install >& | tee install2.log

出来一堆乱七八糟的，没眼看，然后找到安装目录下的 bin，里面有很多编译器和可执行程序:

使用 mpicc 编译出可执行程序，再使用 mpirun 去运行，就可以看到对应的输出。

正常运行后，这步骤就完成了！

3. 并行运行:

用vim编辑一个文件命名为hosts:如果你想在一个节点上运行多个进程，那么hostfile 可以使用 "slots" 属性。如果没有指定"slots"，那么将假设其数目为1.

node1

node2

或者

node1-ubuntu    slots=4

node2-ubuntu    slots=2

让两个节点并行运行例子程序，如下所示：

$ mpiexec -hostfile hosts -np 8 ./Test

如果运行正常，就会在运行该命令的机器上有一些显示，如果host列表中的机器的相同路径下没有这个文件的话，会报错:

$  ~/OpenMpi/bin/mpiexec -hostfile hosts -np   ~/TestA

--------------------------------------------------------------------------

mpiexec was unable to launch the specified application as it could not access

or execute an executable:

Executable: /home/xxxxx/TestA

Node: localhost

while attempting to start process rank .

--------------------------------------------------------------------------

就是：

1. 多台主机下相同路径下的可执行程序命名相同

2. 开启进程数不要太多，以免超出上限，可参考 OpenMPI运行问题：enough slots available in the system

接下来，我发现，2台机器上的每个进程，但是 printf 输出的信息都只在一台机器上，这是为什么呢？——按照每台机器分别运行一个进程的话，应该打印在自身的控制台上才对呀？

后来通过测试，发现标准输出确实是只打印在运行命令的那台机器的控制台上。

而且只要可执行程序名称相同就可以，源代码是可以不一样的。(当然，最好还是一样啦，我这里弄成不一样是为了测试确实在2台机器上跑了)

机器一执行程序A：输出固定数字 11

机器二执行程序B(生成源代码仅仅只有一个 printf 语句是不同的)：输出固定数字 22

给机器一划分一个进程，机器二也是一个进程，果然每次会输出11，22 或者 22,11 ——说明确实在2台机器上分别跑了。

也就是说，我们这个 MPI 集群其实已经搭建好了，接下来更深入的机理我后续会尽力去理清楚。

OpenMPI 集群配置的更多相关文章

Ubuntu 14.04中Elasticsearch集群配置
Ubuntu 14.04中Elasticsearch集群配置前言:本文可用于elasticsearch集群搭建参考.细分为elasticsearch.yml配置和系统配置达到的目的:各台机器配置成 ...
Redis 3.0 Cluster集群配置
Redis 3.0 Cluster集群配置安装环境依赖安装gcc:yum install gcc 安装zlib:yum install zib 安装ruby:yum install ruby 安装 ...
MongoDB高可用集群配置的方案
>>高可用集群的解决方案高可用性即HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性. ...
MySQL Cluster 7.3.5 集群配置实例（入门篇）
一.环境说明: CentOS6.3(32位) + MySQL Cluster 7.3.5,规划5台机器,资料如下: 节点分布情况: MGM:192.168.137. NDBD1:192.168.137 ...
MySQL Cluster 7.3.5 集群配置参数优化（优化篇）
按照前面的教程:MySQL Cluster 7.3.5 集群配置实例(入门篇),可快速搭建起基础版的MySQL Cluster集群,但是在生成环境中,还是有很多问题的,即配置参数需要优化下, 当前生产 ...
关于ActiveMQ的几种集群配置
ActiveMQ的几种集群配置. Queue consumer clusters 此集群让多个消费者同时消费一个队列,若某个消费者出问题无法消费信息,则未消费掉的消息将被发给其他正常的消费者,结构图如 ...
solrCloud+tomcat+zookeeper集群配置
solrcolud安装solrCloud+tomcat+zookeeper部署转载请出自出处:http://eksliang.iteye.com/blog/2107002 http://eksli ...
RabbitMq 集群配置
1. RabbitMQ 所需的附属安装包 1.1 openGL安装执行命令: [root@localhost local]# yum install mesa-libGL-devel mesa-l ...
Spring+quartz 实现定时任务job集群配置
为什么要有集群定时任务? 因为如果多server都触发相同任务,又同时执行,那在99%的场景都是不适合的.比如银行每晚24:00都要汇总营业额.像下面3台server同时进行汇总,最终计算结果可能是真 ...

随机推荐

使用OrgChart插件生成家谱组织结构图
1.orgchart插件: github地址:https://github.com/dabeng/OrgChart 2.前端代码: //1.加载树形数据:ajax请求获取json格式的数据(flag参 ...
How to Effectively crack .JAR Files?
Author: http://www.cnblogs.com/open-coder/p/3763170.html With some external tools, we could crack a ...
Swiper2和Swiper3区别详解与兼容IE8/IE9
最近项目一些网站项目想到用Swiper3来制作响应式,但是发现IE9都不兼容, 而swiper2版本又少一个breakpoints参数做响应式脚本非常不方便,于是想到新版的浏览器用3 ,iE9和以 ...
JS-类型相关
typeof检测类型typeof 返回的数据类型种类:number(js不分整形,浮点等等所有的数字都是number类型).string.boolean.undefined.object.funct ...
在vue-cli + webpack 项目中使用sass
1.准备工作: 由于npm的服务器在国外,网速慢而且安装容易失败,建议在安装之前,先安装国内的镜像,比如淘宝镜像 npm install -g cnpm --registry=https://regi ...
stack permutation
#include <iostream> #include <stack> #include <queue> using namespace std; bool ch ...
chromium之message_pump_win之一
写了22篇博文,终于到这里了———— MessagePumpWin!!! MessagePumpWin这个类还是挺复杂的,可以分成好几部分.接下来分块分析从介绍看,MessagePumpWin 是M ...
hashcode和equals区别
hashcode:对象的初始地址的整数表示 Java中的对象是JVM在管理,JVM会在她认为合适的时候对对象进行移动,比如,在某些需要整理内存碎片的GC算法下发生的GC.此时,对象的地址会变动,但ha ...
python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy
scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行: ...
Python学习手册之捕获组和特殊匹配字符串
在上一篇文章中,我们介绍了 Python 的字符类和对元字符进行了深入讲解,现在我们介绍 Python 的捕获组和特殊匹配字符串.查看上一篇文章请点击:https://www.cnblogs.com/ ...

OpenMPI 集群配置

OpenMPI 集群配置的更多相关文章

随机推荐

热门专题