MPI 模型

如图MPI的各个运算节点是分布式的.每一个节点可以视为是一个“Thread”，但这里的不同之处在于这些节点没有所谓的共享内存，或者说Global Memory。所以，在后面也会看到，一般会有一个节点专门处理数据传输和分配的问题。MPI和CUDA的另一个不同之处在于MPI只有一级结构，即所有的节点都在一个全局命名空间下，不像CUDA那样有Grid/Block/Thread三级层次。MPI同样也是基于SPMD模型，所有的节点执行相同的指令，而每个节点根据自己的ID来确定指令处理的数据，产生相应的输出。

MPI API介绍

以下面这段代码来介绍API: 这段代码的功能是实现向量相加

int main(int argc, char *argv[]) {

  int size = ;

  int pid = -;

  int np = -;

  MPI_Init(&argc, &argv);

  MPI_Comm_rank(MPI_COMM_WORLD, &pid);

  MPI_Comm_size(MPI_COMM_WORLD, &np);

  if (np < ) {

    if (pid == ) printf("Need 3 or more processes.\n");

    MPI_Abort(MPI_COMM_WORLD, );

    return ;

  }

  if (pid < np - )

    compute_node(size / (np - ));

  else

    data_server(size);

  MPI_Finalize();

  return ;

}

1. MPI_Init()和MPI_Finalize()用于初始化和结束MPI框架；

2. MPI_COMM_WORLD代表了所有分配到的节点的集群；

3. MPI_Comm_rank()用于获取节点在集群中的标号，相当与CUDA中的threadIdx.x；

4. MPI_Comm_size()用于获取集群节点的数量，相当于blockDim.x；

5. MPI_Abort()用于中止执行。

上面代码中,有一个节点，也就是np-1节点，来负责数据的传输和分配，而其他的节点则负责计算。

数据传输data_server(size)是如何实现的呢?

MPI 通信

void data_server(unsigned int size) {

  int np;

  int first = ;

  unsigned int num_bytes = size * sizeof(float);

  float *a = ; float *b = ; float *c = ;

  MPI_Comm_size(MPI_COMM_WORLD, &np);

  a = (float *) malloc(num_bytes);

  b = (float *) malloc(num_bytes);

  c = (float *) malloc(num_bytes);

  random_data(a, size);

  random_data(b, size);

  float *ptr_a = a;

  float *ptr_b = b;

  // send data

  for (int i = ; i < np - ; i++) {

    MPI_Send(ptr_a, size / (np - ), MPI_FLOAT, i, DATA_DISTRIBUTE, MPI_COMM_WORLD);

    ptr_a += size / (np - );

    MPI_Send(ptr_b,size / (np - ), MPI_FLOAT, i, DATA_DISTRIBUTE, MPI_COMM_WORLD);

    ptr_b += size / (np - );

  }

  // wait for nodes to compute

  MPI_Barrier(MPI_COMM_WORLD);

  // collect output data

  MPI_Status status;

  for (int i = ; i < np -; i++) {

    MPI_Recv(c + i * size /(np - ), size / (np - ), MPI_REAL, i, DATA_COLLECT, MPI_COMM_WORLD, &status);

  }

  store_output(c);

  free(a); free(b); free(c);

}

int MPI_Send(void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm)

buf: 发送buffer的地址值.

count: 发送buffer的元素个数.

datatype: 发送buffer的数据类型.

dest: 个人理解为目标处理单元的索引,比如当前这个就是发送给第i个处理单元.

tag: 信息tag

comm: 传播者,handler

int MPI_Barrier(MPI_Comm comm): 阻塞调用者直到组内所有成员都调用它. 类似于cuda中的__syncthreads();

说完MPI 通信,下面来说MPI 计算部分.

MPI Compute

若节点支持CUDA，则还可以与CUDA结合起来进一步提高运算速度。以上面的计算节点为例：

void compute_node(unsigned int vector_size ) {

  int np;

  unsigned int num_bytes = vector_size*sizeof(float);

  float *h_a, *h_b, *h_output;

  float* d_A, d_B, d_output;

  MPI_Status status;

  MPI_Comm_size(MPI_COMM_WORLD, &np);

  int server_process = np - ;

  /* Allocate memory */

  cudaHostAlloc((void **)&h_a, num_bytes, cudaHostAllocDefault);

  cudaHostAlloc((void **)&h_b, num_bytes, cudaHostAllocDefault);

  cudaHostAlloc((void **)&h_output, num_bytes, cudaHostAllocDefault);

  /* Get the input data from server process */

  MPI_Recv(h_a, vector_size, MPI_FLOAT, server_process, DATA_DISTRIBUTE, MPI_COMM_WORLD, &status);

  MPI_Recv(h_b, vector_size, MPI_FLOAT, server_process, DATA_DISTRIBUTE, MPI_COMM_WORLD, &status);

  /* Transfer data to CUDA device */

  cudaMalloc((void **) &d_A, size);

  cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);

  cudaMalloc((void **) &d_B, size);

  cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);

  cudaMalloc((void **) &d_output, size);

  /* Compute the partial vector addition */

  dim3 Db(BLOCK_SIZE);

  dim3 Dg((vector_size + BLOCK_SIZE – )/BLOCK_SIZE);

  vector_add_kernel<<<Dg, Db>>>(d_output, d_a, d_b, vector_size);

  MPI_Barrier(d_output);

  /* Send the output */

  MPI_Send(output, vector_size, MPI_FLOAT, server_process, DATA_COLLECT, MPI_COMM_WORLD);

  /* Release device memory */

  cudaFree(d_a);

  cudaFree(d_b);

  cudaFree(d_output);

}

上面使用了Pinned Memory，可以提高数据传输的效率。这里所做的工作，就是将原来串行的向量.

如果节点不支持cuda,则可以像普通C语言那样写:

for(int i=0; i<vector_size; ++i) {

　　output[i] = input_a[i] + input_b[i]

}

8.3 MPI的更多相关文章

查找素数Eratosthenes筛法的mpi程序
思路: 只保留奇数 (1)由输入的整数n确定存储奇数(不包括1)的数组大小: n=(n%2==0)?(n/2-1):((n-1)/2);//n为存储奇数的数组大小,不包括基数1 (2)由数组大小n.进 ...
kmeans算法并行化的mpi程序
用c语言写了kmeans算法的串行程序,再用mpi来写并行版的,貌似参照着串行版来写并行版,效果不是很赏心悦目~ 并行化思路: 使用主从模式.由一个节点充当主节点负责数据的划分与分配,其他节点完成本地 ...
MPI Maelstrom - POJ1502最短路
Time Limit: 1000MS Memory Limit: 10000K Description BIT has recently taken delivery of their new sup ...
MPI之求和
// MPI1.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include "mpi.h" #include &l ...
VS2012下配置MPI
并行处理结课实验,要用到MPI编程,我的电脑和VS2012都是64位的,以为MPICH也得是64位才行,结果饶了很大的弯——配置正确,添加引用之后,仍然无法识别MPI函数. 后来换了个32位的MPIC ...
MPI+WIN10并行试运行
系统:2015 win10专业版 x64 MPI安装包:mpich2-1.4.1p1-win-x86-64.man 将后缀改为.msi 以管理员身份安装安装过程一路默认,注意<behappy为 ...
Parallel Computing–Cannon算法 (MPI 实现)
原理不解释,直接上代码代码中被注释的源程序可用于打印中间结果,检查运算是否正确. #include "mpi.h" #include <math.h> #includ ...
基于MPI的并行计算—矩阵向量乘
以前没接触过MPI编程,对并行计算也没什么了解.朋友的期末课程作业让我帮忙写一写,哎,实现结果很一般啊.最终也没完整完成任务,惭愧惭愧. 问题大概是利用MPI完成矩阵和向量相乘.输入:Am×n,Bn× ...
大数据并行计算利器之MPI/OpenMP
大数据集群计算利器之MPI/OpenMP ---以连通域标记算法并行化为例 1 背景图像连通域标记算法是从一幅栅格图像(通常为二值图像)中,将互相邻接(4邻接或8邻接)的具有非背景值的像素集合提取出 ...
C++程序中调用MPI并行的批处理命令
问题来源:在使用MPI时,将程序并行实现了,运行时需要在dos窗口下输入批处理命令,以完成程序的执行. 如:mpiexec -localroot -n 6 d:/mpi/pro.exe 但每次这样挺麻 ...

随机推荐

poj 2976 Dropping tests 0/1分数规划
0/1分数规划问题,用二分解决!! 代码如下: #include<iostream> #include<stdio.h> #include<algorithm> # ...
linux ubuntu卸载软件
1.通过deb包安装的情况: 安装.deb包: 代码:sudo dpkg -i package_file.deb反安装.deb包: 代码:sudo dpkg -r package_name 2.通过a ...
shell中截取字符串的方法总结
shell中截取字符串的方法有很多种, ${expression}一共有9种使用方法. ${parameter:-word} ${parameter:=word} ${parameter:?word} ...
BZOJ 3925 ZJOI2015 地震后的幻想乡
假设我们用了边权前i小的边使得图连通,那么对答案的贡献为i/m+1 又因为期望的线性性质,我们只需要求用了i条边就可以了不妨设g(S)(i)表示用了i条边使得点集S连通的概率设f(S)(i)表示用 ...
easyui源码翻译1.32--datagrid(数据表格)
前言此前网上有easyui1.25的源码应该算是比较老的版本之后又经历了1.26 . 1.3. 1.31. 1.32 .1.33.1.34 1.33开始支持css3 算是又一个转折但是 ...
[itint5]跳马问题加强版
http://www.itint5.com/oj/#12 首先由跳马问题一,就是普通的日字型跳法,那么在无限棋盘上,任何点都是可达的.证法是先推出可以由(0,0)到(0,1),那么由对称型等可知任何点 ...
【转】win7如何设置共享目录，并且访问不需要输入用户名和密码。
1.打开guest帐号,guest帐号默认情况下是不启用的进入控制面板->用户帐户->管理其他帐户->激活Gust用户 2,右击共享目录,属性->共享->共享-> ...
C#基础精华07（委托事件，委托的使用，匿名方法）
1.委托概述委托是一种数据类型,像类一样(可以声明委托类型变量).方法参数可以是int.string.类类型 void M1(int n){ } √ void M2(string s){ } √ ...
转：Bitbucket使用方法
一.软件及SSH keys: 由于我的Bitbucket账号的邮箱及用户名与Github相同,所以SSH Public Keys可以用Github的,登录Bitbucket,悬浮在用户名boliqua ...
如何在VS2010中使用Async功能?
伴随C#5.0的发布,“异步”特性越来越深入人心:在VS2012中早就可以使用它大大简化异步编程的痛苦,那么在VS2010中呢?我们无法尝鲜么?答案是“No”!,其实我们可以这样做: 1)必须把你的V ...