0_Simple__simpleZeroCopy

两种方法使用零拷贝内存做简单的向量加和，并评估 GPU 计算结果与 CPU 计算结果的差。

▶ 源代码

 #include <stdio.h>

 #include <cuda.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 #define MEMORY_ALIGNMENT  4096

 #define ALIGN_UP(x,size) ( ((size_t)x+(size-1))&(~(size-1)) )

 __global__ void vectorAddGPU(float *a, float *b, float *c, int N)

 {

     int idx = blockIdx.x*blockDim.x + threadIdx.x;

     if (idx < N)

         c[idx] = a[idx] + b[idx];

 }

 int main(int argc, char **argv)

 {

     printf("\n\tStart.\n");

     // 设备检查

     bool bMac;

     cudaDeviceProp deviceProp;

     cudaSetDevice();

     cudaGetDeviceProperties(&deviceProp, );

     if (CUDART_VERSION <  || !deviceProp.canMapHostMemory)// CUDART_VERSION 为 CUDA Runtime API 版本，CUDA9.0 对应 9000

     {

         printf("\n\t CUDA Runtime API not support MapHostMemory.\n");

         getchar();

         return ;

     }

     cudaSetDeviceFlags(cudaDeviceMapHost);// MapHostFlag 功能正常，设置标志

 #if defined(__APPLE__) || defined(MACOSX)// MacOS 系统不支持将普通堆内存设置为页锁定内存

     bMac = true;

 #else

     bMac = false;

 #endif

     if (CUDART_VERSION <  && !bMac)// 既不是 MacOS 系统，Runtime API 版本还不够高

     {

         printf("\n\tCUDA Runtime API not support cudaHostRegister function.\n");

         getchar();

         return ;

     }

     // 总体逻辑：

     // CUDA Runtime version < 2200，不支持 MApHostMamory，退出

     // CUDA Runtime version ∈[2200, 4000)，且为 MAcOS 系统，使用 cudaHostAlloc() + cudaHostAllocMapped

     // CUDA Runtime version ∈[2200, 4000)，且不是 MAcOS 系统，退出

     // CUDA Runtime version ≥ 4000，使用 malloc() + cudaHostRegister()

     // 内存申请

     int nelem = ;

     int bytes = nelem * sizeof(float);

     float *a, *b, *c;

     float *a_UA, *b_UA, *c_UA;

     float *d_a, *d_b, *d_c;

     if (CUDART_VERSION >=  || bMac)

     {

         a_UA = (float *) malloc(bytes + MEMORY_ALIGNMENT);      // 申请时多 4KB，用于滑动对齐，释放内存时以该指针为准

         b_UA = (float *) malloc(bytes + MEMORY_ALIGNMENT);

         c_UA = (float *) malloc(bytes + MEMORY_ALIGNMENT);

         a = (float *) ALIGN_UP(a_UA, MEMORY_ALIGNMENT);         // 指针指到 4K 对齐的位置上去，用于计算

         b = (float *) ALIGN_UP(b_UA, MEMORY_ALIGNMENT);

         c = (float *) ALIGN_UP(c_UA, MEMORY_ALIGNMENT);

         cudaHostRegister(a, bytes, CU_MEMHOSTALLOC_DEVICEMAP);  // 设置页锁定内存

         cudaHostRegister(b, bytes, CU_MEMHOSTALLOC_DEVICEMAP);

         cudaHostRegister(c, bytes, CU_MEMHOSTALLOC_DEVICEMAP);

     }

     else

     {

         cudaHostAlloc((void **)&a, bytes, cudaHostAllocMapped); // 使用函数 cudaHostAlloc() 一步到位

         cudaHostAlloc((void **)&b, bytes, cudaHostAllocMapped);

         cudaHostAlloc((void **)&c, bytes, cudaHostAllocMapped);

     }

     // 初始化和内存映射

     for (int n = ; n < nelem; n++)

     {

         a[n] = rand() / (float)RAND_MAX;

         b[n] = rand() / (float)RAND_MAX;

     }

     cudaHostGetDevicePointer((void **)&d_a, (void *)a, );

     cudaHostGetDevicePointer((void **)&d_b, (void *)b, );

     cudaHostGetDevicePointer((void **)&d_c, (void *)c, );

     // 调用内核

     dim3 block(, , );

     dim3 grid((unsigned int)ceil(nelem / (float)block.x));

     vectorAddGPU << <grid, block >> > (d_a, d_b, d_c, nelem);

     cudaDeviceSynchronize();

     // 检查结果

     float errorNorm, refNorm, ref, diff;

     errorNorm = .f;

     refNorm = .f;

     for (int n = ; n < nelem; n++)

     {

         diff = c[n] - (ref = a[n] + b[n]);// ref 为 CPU 计算的和，diff 为 GPU 计算结果与 CPU 计算结果的差

         errorNorm += diff*diff;           // 向量 a + b 的两种计算结果的差的平方

         refNorm += ref*ref;               // 向量 a 与向量 b 的和的平方

     }

     errorNorm = (float)sqrt((double)errorNorm);

     refNorm = (float)sqrt((double)refNorm);

     printf("\n\tDifference between GPU and CPU is %f, %f%%\n", errorNorm, errorNorm / refNorm);

     // 清理工作

     if (CUDART_VERSION >=  || bMac)

     {

         cudaHostUnregister(a);

         cudaHostUnregister(b);

         cudaHostUnregister(c);

         free(a_UA);

         free(b_UA);

         free(c_UA);

     }

     else

     {

         cudaFreeHost(a);

         cudaFreeHost(b);

         cudaFreeHost(c);

     }

     printf("\n\tFinish.\n");

     getchar();

     return ;

 }

▶ 输出结果：

     Start.

     Difference between GPU and CPU is 0.000000, 0.000000%

     Finish.

▶ 涨姿势

● 两种使用零拷贝内存的方法，在代码的逻辑部分进行了说明

● 向上取整的宏函数，只对分母（size）为 2 的整数次幂的情况有效。

 #define ALIGN_UP(x,size) ( ((size_t)x+(size-1))&(~(size-1)) )

　　e.g. size == 4096，则 ~ (size - 1) == 11111111 11111111 11110000 00000000₂，将其作为模板进行按位且操作，等价于取不低于 4096 的高位。

0_Simple__simpleZeroCopy的更多相关文章

随机推荐

C#使用zookeeper
C#使用zookeeper https://blog.csdn.net/XuWei_XuWei/article/details/80611659 1.简述 zookeeper适用于分布式锁,配置管理, ...
http状态码301和302详解及区别——辛酸的探索之路(文章源自：http://blog.csdn.net/grandPang/article/details/47448395)
一直对http状态码301和302的理解比较模糊,在遇到实际的问题和翻阅各种资料了解后,算是有了一定的理解.这里记录下,希望能有新的认识.大家也共勉. 官方的比较简洁的说明: 301 redirect ...
poj1797 最短路
虽然不是求最短路,但是仍然是最短路题目,题意是要求1到N点的一条路径,由于每一段路都是双向的并且有承受能力,求一条路最小承受能力最大,其实就是之前POJ2253的翻版,一个求最大值最小,一个求最小值最 ...
frameset的用法
碰到一个frameset的问题,因为我比较懒,就先从网上拿来一篇基础知识,呵呵,好记性不如烂笔头啊所谓框架便是网页画面分成几个框窗,同时取得多个 URL.只需要 <FRAMESE ...
solr学习三（测试类，含普通与ExtractingRequestHandler测试）
solr客户端基本是配置出来的,服务端可以对其进行测试,我使用的是solrj服务端. 如果初学solr,先使用普通的测试类: import java.io.IOException; import ja ...
GOOGLE高级搜索的秘籍
一.摘要本文内容来源自互联网,全面的介绍Google搜索的各种功能和技巧. 二.GOOGLE简介 Google(http://www.google.com/)是一个搜索引擎,由两个斯坦福大学博士生L ...
小米盒子root及sshdroid安装
1.root 参考屌丝猫的教程主要原理是通过运行自定义recovery实现root功能 2.安装sshdroid以及幸运破解器 3.使用幸运破解器吧sshdroid编程系统应用,从而实现自启动
spring cloud 之 Eureka 知识点
Eureka原理当服务消费者想要调用服务提供者的API时,首先会在注册中心中查询当前可用的实例的网络地址(也可能是定时查询可用实例,本地缓存好可用服务列表),然后再使用客户端负载均衡,命中到其中一个 ...
sql 防注入维基百科
http://zh.wikipedia.org/wiki/SQL%E8%B3%87%E6%96%99%E9%9A%B1%E7%A2%BC%E6%94%BB%E6%93%8A SQL攻击(SQL inj ...
一个多maven项目聚合的实例
本文转载自:http://my.oschina.net/xuqiang/blog/99854 本文介绍一个多maven项目的实例demo,展示了聚合.继承.工程依赖.单元测试.多war聚合.cargo ...

0_Simple__simpleZeroCopy

0_Simple__simpleZeroCopy的更多相关文章

随机推荐

热门专题