0_Simple__MultiGPU

使用多台 GPU 进行计算

▶ 源代码。使用不同的流来控制不同 GPU 上的运算任务。

 #include <stdio.h>

 #include <timer.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 #include "simpleMultiGPU.h"

 const int MAX_GPU_COUNT = ;

 const int DATA_N        =  * ;

 __global__ static void reduceKernel(float *d_Result, float *d_Input, int N)

 {

     const int tid = blockIdx.x * blockDim.x + threadIdx.x;

     const int threadN = gridDim.x * blockDim.x;

     float sum = ;

     for (int pos = tid; pos < N; pos += threadN)

         sum += d_Input[pos];

     d_Result[tid] = sum;

 }

 int main(int argc, char **argv)

 {

     printf("\n\tStart.\n");

     const int BLOCK_N = , THREAD_N = ;

     const int ACCUM_N = BLOCK_N * THREAD_N;

     int i, j, GPU_N;

     float sumGPU;

     TGPUplan plan[MAX_GPU_COUNT];

     cudaGetDeviceCount(&GPU_N);

     GPU_N = MIN(GPU_N, MAX_GPU_COUNT);

     printf("\n\tDevice count: %i\n", GPU_N);

     // 准备计算数据

     for (i = ; i < GPU_N; i++)

         plan[i].dataN = DATA_N / GPU_N;

     // 计算数据量与设备数量没有对齐的部分

     for (i = ; i < DATA_N % GPU_N; i++)

         plan[i].dataN++;

     // 申请内存，初始化 h_data

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaStreamCreate(&plan[i].stream);

         cudaMalloc((void **)&plan[i].d_data, plan[i].dataN * sizeof(float));

         cudaMalloc((void **)&plan[i].d_sum, ACCUM_N * sizeof(float));

         cudaMallocHost((void **)&plan[i].h_sum_from_device, ACCUM_N * sizeof(float));

         cudaMallocHost((void **)&plan[i].h_data, plan[i].dataN * sizeof(float));

         for (j = ; j < plan[i].dataN; j++)

             plan[i].h_data[j] = (float)rand() / (float)RAND_MAX;

     }

     StartTimer();// 计时

     // 调用各 GPU 进行计算，plan[i].d_data -> plan[i].d_sum -> plan[i].h_sum_from_device

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaMemcpyAsync(plan[i].d_data, plan[i].h_data, plan[i].dataN * sizeof(float), cudaMemcpyHostToDevice, plan[i].stream);

         reduceKernel<<<BLOCK_N, THREAD_N, , plan[i].stream>>>(plan[i].d_sum, plan[i].d_data, plan[i].dataN);

         cudaMemcpyAsync(plan[i].h_sum_from_device, plan[i].d_sum, ACCUM_N *sizeof(float), cudaMemcpyDeviceToHost, plan[i].stream);

     }

     // 处理 GPU 计算结果，plan[i].h_sum_from_device -> plan[i].h_sum -> sumGPU

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaStreamSynchronize(plan[i].stream);

         for (j = , plan[i].h_sum = 0.0f; j < ACCUM_N; j++)

             plan[i].h_sum += plan[i].h_sum_from_device[j];

     }

     for (i = , sumGPU = 0.0f; i < GPU_N; i++)// CPU 最后规约

         sumGPU += plan[i].h_sum;

     printf("\n\tGPU Processing time: %f (ms)\n", GetTimer());

     // 使用 CPU 计算，plan[i].h_data -> sumCPU

     double sumCPU = ;

     for (i = ; i < GPU_N; i++)

     {

         for (j = ; j < plan[i].dataN; j++)

             sumCPU += plan[i].h_data[j];

     }

     // 检查结果

     double diff = fabs(sumCPU - sumGPU) / fabs(sumCPU);

     printf("\n\tGPU sum: %f\n\tCPU sum: %f\n", sumGPU, sumCPU);

     printf("\n\tRelative difference: %E, %s\n", diff, (diff < 1e-) ? "Passed" : "Failed");

     //回收工作

     for (i = ; i < GPU_N; i++)

     {

         cudaSetDevice(i);

         cudaFreeHost(plan[i].h_data);

         cudaFreeHost(plan[i].h_sum_from_device);

         cudaFree(plan[i].d_sum);

         cudaFree(plan[i].d_data);

         cudaStreamDestroy(plan[i].stream);

     }

     getchar();

     return ;

 }

▶ 输出结果

    Start.

    Device count: 

    GPU Processing time: 13.726471 (ms)

    GPU sum: 16779778.000000

    CPU sum: 16779776.312309

    Relative difference: 1.005789E-07, Passed

▶ 涨姿势

● 在使用不同的设备执行相关函数（包括 cudaFree 等主机函数）时要注意，使用函数 cudaSetDevice() 来切换设备。

0_Simple__MultiGPU的更多相关文章

随机推荐

Codeup1085: 阶乘的和
题目描述有些数可以表示成若干个不同阶乘的和.例如,9=1!+2!+3!.小明对这些数很感兴趣,所以他给你一个正整数n,想让你告诉他这个数是否可以表示成若干个不同阶乘的和. 输入输入包含多组测试数据 ...
HDU 1084：What Is Your Grade?
Problem Description "Point, point, life of student!" This is a ballad(歌谣)well known in col ...
龙儿经理嘴上经常说的B树
国内的数据结构教材一般是按照Knuth定义,即“阶”定义为一个节点的子节点数目的最大值. 对于一棵m阶B-tree,每个结点至多可以拥有m个子结点.各结点的关键字和可以拥有的子结点数都有限制规定m阶 ...
google play apk 下载
https://apps.evozi.com/apk-downloader/?id=com.sgiggle.production
day33 python学习多线程
线程的概念进程只是用来把资源集中到一起(进程只是一个资源单位,或者说资源集合),而线程才是cpu上的执行单位. 三线程与进程的区别 1 1.线程的创建开销小(无需申请内存空间或者资源),创建线程的 ...
Java的四种引用之强弱软虚
在java中提供4个级别的引用:强引用.软引用.弱引用和虚引用.除了强引用外,其他3中引用均可以在java.lang.ref包中找到对应的类.开发人员可以在应用程序中直接使用他们. 1 强引用强引用 ...
【RAC】使用一条“ps”命令获取Linux环境下全部RAC集群进程信息
如何仅使用一条ps命令便能获取到所有与RAC集群进程相关的信息. 从所使用的命令角度上看很简单,仅需使用ps命令结合grep命令便能实现.问题关键是需要确定检索哪些关键字. 1.与RAC集群有关的进 ...
二分查找算法，java实现
二分查找算法是在有序数组中用到的较为频繁的一种算法. 在未接触二分查找算法时,最通用的一种做法是,对数组进行遍历,跟每个元素进行比较,其时间复杂度为O(n),但二分查找算法则更优,因为其查找时间复杂度 ...
spring 使用 maven profile
先看看 maven 定义 profile 的写法  <profiles> <profile> <activation> ...
centos6 安装GitLab
环境 Requirements 软件版本CentOS 6.6Python 2.6Ruby 2.1.5Git 1.7.10+Redis 2.0+MySQL GitLab 7-8-stableGitLa ...

0_Simple__MultiGPU

0_Simple__MultiGPU的更多相关文章

随机推荐

热门专题