0_Simple__simpleMPI

MPI 的简单使用

▶ 源代码。主机根结点生成随机数组，发布副本到各结点（例子用孩子使用了一个结点），分别使用 GPU 求平方根并求和，然后根结点使用 MPI 回收各节点的计算结果，规约求和后除以数组大小（相当于球随机数组中所有元素的平方根的平均值）。

 // simpleMPI.h

 extern "C"

 {

     void initData(float *data, int dataSize);

     void computeGPU(float *hostData, int blockSize, int gridSize);

     float sum(float *data, int size);

     void my_abort(int err);

 }

 // simpleMPI.cu

 #include <iostream>

 #include <mpi.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "simpleMPI.h"

 using std::cout;

 using std::cerr;

 using std::endl;

 #define CUDA_CHECK(call)                                                    \

     if((call) != cudaSuccess)                                               \

     {                                                                       \

         cudaError_t err = cudaGetLastError();                               \

         cerr << "CUDA error calling \""#call"\", code is " << err << endl;  \

         my_abort(err);                                                      \

     }

 // GPU 计算平方根

 __global__ void simpleMPIKernel(float *input, float *output)

 {

     int tid = blockIdx.x * blockDim.x + threadIdx.x;

     output[tid] = sqrt(input[tid]);

 }

 // 初始化数组

 void initData(float *data, int dataSize)

 {

     for (int i = ; i < dataSize; i++)

         data[i] = (float)rand() / RAND_MAX;

 }

 // 使用 GPU 进行计算的函数

 void computeGPU(float *hostData, int blockSize, int gridSize)

 {

     int dataSize = blockSize * gridSize;

     float *deviceInputData = NULL;

     CUDA_CHECK(cudaMalloc((void **)&deviceInputData, dataSize * sizeof(float)));

     float *deviceOutputData = NULL;

     CUDA_CHECK(cudaMalloc((void **)&deviceOutputData, dataSize * sizeof(float)));

     CUDA_CHECK(cudaMemcpy(deviceInputData, hostData, dataSize * sizeof(float), cudaMemcpyHostToDevice));

     simpleMPIKernel<<<gridSize, blockSize>>>(deviceInputData, deviceOutputData);

     CUDA_CHECK(cudaMemcpy(hostData, deviceOutputData, dataSize *sizeof(float), cudaMemcpyDeviceToHost));

     CUDA_CHECK(cudaFree(deviceInputData));

     CUDA_CHECK(cudaFree(deviceOutputData));

 }

 // 简单的求和函数

 float sum(float *data, int size)

 {

     float accum = .f;

     for (int i = ; i < size; i++)

         accum += data[i];

     return accum;

 }

 // 中止函数

 void my_abort(int err)

 {

     cout << "Test FAILED\n";

     MPI_Abort(MPI_COMM_WORLD, err);

 }

 // simpleMPI.cpp

 #include <mpi.h>

 #include <iostream>

 #include "simpleMPI.h"

 using std::cout;

 using std::cerr;

 using std::endl;

 #define MPI_CHECK(call) if((call) != MPI_SUCCESS) { cerr << "MPI error calling \""#call"\"\n"; my_abort(-1); }

 int main(int argc, char *argv[])

 {

     int blockSize = ;

     int gridSize = ;

     int dataSizePerNode = gridSize * blockSize;

     // 初始化 MPI

     MPI_CHECK(MPI_Init(&argc, &argv));

     // 获取节点尺寸和编号

     int commSize, commRank;

     MPI_CHECK(MPI_Comm_size(MPI_COMM_WORLD, &commSize));

     MPI_CHECK(MPI_Comm_rank(MPI_COMM_WORLD, &commRank));

     // 根结点生成随机数组

     int dataSizeTotal = dataSizePerNode * commSize;

     float *dataRoot = NULL;

     if (commRank == )

     {

         cout << "Running on " << commSize << " nodes" << endl;

         dataRoot = new float[dataSizeTotal];

         initData(dataRoot, dataSizeTotal);

     }

     // 每个结点上申请数组用于接收根结点发来的数据

     float *dataNode = new float[dataSizePerNode];

     MPI_CHECK(MPI_Scatter(dataRoot, dataSizePerNode, MPI_FLOAT, dataNode, dataSizePerNode, MPI_FLOAT, , MPI_COMM_WORLD));

     // 清空根节点数据

     if (commRank == )

         delete [] dataRoot;

     // 每个结点调用 GPU 计算平方根，然后规约到一个值

     computeGPU(dataNode, blockSize, gridSize);

     float sumNode = sum(dataNode, dataSizePerNode);

     // 使用 MPI 接收每个结点的计算结果并进行规约

     float sumRoot;

     MPI_CHECK(MPI_Reduce(&sumNode, &sumRoot, , MPI_FLOAT, MPI_SUM, , MPI_COMM_WORLD));

     // 回收和输出工作

     delete[] dataNode;

     MPI_CHECK(MPI_Finalize());

     if (commRank == )

     {

         float average = sumRoot / dataSizeTotal;

         cout << "Average of square roots is: " << average << endl;

         cout << "PASSED\n";

     }

     getchar();

     return ;

 }

▶ 输出结果

Running on  nodes

Average of square roots is: 0.667507

PASSED

▶ 涨姿势

● 集中在 MPI 的几何函数的使用上，CUDA 部分没有新的认识。

0_Simple__simpleMPI的更多相关文章

随机推荐

ZOJ 3551 吸血鬼概率DP
解题报告链接: http://www.cnblogs.com/183zyz/archive/2012/09/13/2683524.html 做法:设当有i个吸血鬼时变成n个吸血鬼的天数的数学期望为dp ...
ssh-add时候提示Could not open a connection to your authentication agent
先执行下ssh-agent bash
Word所有字体按比例缩小
ctrl + [ 不然每次都要一部分一部分的修改啊
hdu2066 一个人的旅行最短路
单源最短路裸题 #include<stdio.h> #include<string.h> #define min(a,b) (a)<(b)?a:b #define INF ...
vue-meta
vue-meta插件的使用: https://github.com/declandewet/vue-meta
通过torodb && hasura graphql 让mongodb 快速支持graphql api
torodb 可以方便的将mongo 数据实时同步到pg,hasura graphql 可以方便的将pg 数据暴露为graphql api,集成在一起真的很方便环境准备 docker-compose ...
sqlserver 2008 r2 下载地址和序列号，可用迅雷下载
sqlserver 2008 r2 下载地址,可用迅雷下载下载sqlserver 2008 r2 ,微软用了一个下载器,经过从下载器上,将他的地址全部用键盘敲了下来.最终的简体中文版地址如下: 32 ...
启用Win8/10(中文版/核心版/家庭版)中被阉割的远程桌面服务端
Windows 8/8.1/10 标准版(中文版/核心版/家庭版)中取消了远程桌面服务端,想通过远程连接到自己的电脑就很麻烦了,第三方远程桌面速度又不理想(如TeamViewer).通过以下方法可让系 ...
CC2530中串口波特率改为9600时单个数据包来不及接收的解决方案
在调试CC2530过程中发现波特率改为9600时,单个包仅有3个Byte时,接收DMA就会启动因而数据包被强迫拆分成多个,显然只要将接收DMA启动延时做到足够大即可. 具体修改内容如下图所示: 经过 ...
【python】实例-判断用户输入数字的类型
num=input("please input the num: ") print "the number your input is: "+str(num) ...

0_Simple__simpleMPI

0_Simple__simpleMPI的更多相关文章

随机推荐

热门专题