CUDA共享内存的使用示例

CUDA共享内存使用示例如下：参考教材《GPU高性能编程CUDA实战》。P54-P65

教材下载地址：http://download.csdn.net/download/yizhaoyanbo/10150300。如果没有下载分可以评论区留下邮箱，我发你。

 #include <cuda.h>

 #include <cuda_runtime.h>

 #include <device_launch_parameters.h>

 #include <device_functions.h>

 #include <iostream>

 #include <string>

 using namespace std;

 #define imin(a,b) (a<b? a:b)

 const int N =  * ;

 const int threadsPerBlock = ;

 const int blocksPerGrid = imin(, (N + threadsPerBlock - ) / threadsPerBlock);

 __global__  void dot(float *a, float *b, float *c)

 {

     __shared__ float cache[threadsPerBlock];

     int tid = threadIdx.x + blockDim.x*blockIdx.x;

     int cacheIndex = threadIdx.x;

     float temp = ;

     //每个线程负责计算的点乘，再加和

     while (tid<N)

     {

         temp += a[tid] * b[tid];

         tid += blockDim.x*gridDim.x;

     }

     //每个线程块中线程计算的加和保存到缓冲区cache，一共有blocksPerGrid个缓冲区副本

     cache[cacheIndex] = temp;

     //对线程块中的线程进行同步

     __syncthreads();

     //归约运算，将每个缓冲区中的值加和，存放到缓冲区第一个元素位置

     int i = blockDim.x / ;

     while (i != )

     {

         if (cacheIndex < i)

         {

             cache[cacheIndex] += cache[cacheIndex + i];

         }

         __syncthreads();

         i /= ;

     }

     //使用第一个线程取出每个缓冲区第一个元素赋值到C数组

     if (cacheIndex == )

     {

         c[blockIdx.x] = cache[];

     }

 }

 void main()

 {

     float *a, *b, c, *partial_c;

     float *dev_a, *dev_b, *dev_partial_c;

     //分配CPU内存

     a = (float*)malloc(N * sizeof(float));

     b = (float*)malloc(N * sizeof(float));

     partial_c = (float*)malloc(blocksPerGrid * sizeof(float));

     //分配GPU内存

     cudaMalloc(&dev_a, N * sizeof(float));

     cudaMalloc(&dev_b, N * sizeof(float));

     cudaMalloc(&dev_partial_c, blocksPerGrid * sizeof(float));

     float sum = ;

     for (int i = ; i < N; i++)

     {

         a[i] = i;

         b[i] = i * ;

     }

     //将数组上传到GPU

     cudaMemcpy(dev_a, a, N * sizeof(float), cudaMemcpyHostToDevice);

     cudaMemcpy(dev_b, b, N * sizeof(float), cudaMemcpyHostToDevice);

     dot << <blocksPerGrid, threadsPerBlock >> > (dev_a, dev_b, dev_partial_c);

     cudaMemcpy(partial_c, dev_partial_c, blocksPerGrid * sizeof(float), cudaMemcpyDeviceToHost);

     //CPU 完成最终求和

     c = ;

     for (int i = ; i < blocksPerGrid; i++)

     {

         c += partial_c[i];

     }

 #define sum_squares(x) (x*(x+1)*(2*x+1)/6)

     printf("does GPU value %.6g = %.6g?\n", c,  * sum_squares((float)(N - )));

     cudaFree(dev_a);

     cudaFree(dev_b);

     cudaFree(dev_partial_c);

     free(a);

     free(b);

     free(partial_c);

 }

我的博客即将同步至腾讯云+社区，邀请大家一同入驻。

CUDA共享内存的使用示例的更多相关文章

【CUDA 基础】5.1 CUDA共享内存概述
title: [CUDA 基础]5.1 CUDA共享内存概述 categories: - CUDA - Freshman tags: - CUDA共享内存模型 - CUDA共享内存分配 - CUDA共 ...
windows 下共享内存使用方法示例
windows下共享内存使用方法较 linux 而言微微复杂示例实现的功能有一个视频文件,一块内存区域 : 程序 A,将该视频写入该内存区域 : 程序 B,从该内存区域读取该视频 : 代码模块实现 ...
【CUDA 基础】5.0 共享内存和常量内存
title: [CUDA 基础]5.0 共享内存和常量内存 categories: - CUDA - Freshman tags: - 共享内存 - 常量内存 toc: true date: 2018 ...
linux实现共享内存同步的四种方法
https://blog.csdn.net/sunxiaopengsun/article/details/79869115 本文主要对实现共享内存同步的四种方法进行了介绍. 共享内存是一种最为高效的进 ...
Linux IPC之共享内存
System V共享内存机制: shmget shmat shmdt shmctl 原理及实现: system V IPC机制下的共享内存本质是一段特殊的内存区域,进程间需要共享的数据被放在该共 ...
linux 实现共享内存同步
本文主要对实现共享内存同步的四种方法进行了介绍. 共享内存是一种最为高效的进程间通信方式,进程可以直接读写内存,而不需要任何数据的拷贝.它是IPC对象的一种. 为了在多个进程间交换信息,内核专门留出了 ...
信号量学习 & 共享内存同步
刚刚这篇文章学习了共享内存:http://www.cnblogs.com/charlesblc/p/6142139.html 里面也提到了共享内存,自己不进行同步,需要其他手段比如信号量来进行.那么现 ...
CUDA：共享内存与同步
CUDA C支持共享内存, 将CUDA C关键字__shared__添加到变量声明中,将使这个变量驻留在共享内存中.对在GPU上启动的每个线程块,CUDA C编译器都将创建该变量的一个副本.线程块中的 ...
【CUDA 基础】5.2 共享内存的数据布局
title: [CUDA 基础]5.2 共享内存的数据布局 categories: - CUDA - Freshman tags: - 行主序 - 列主序 toc: true date: 2018-0 ...

随机推荐

volatile关键字是如何起作用的？
关键字volatile是Java虚拟机提供的最轻量级的同步机制,但是在平时的项目里面,遇到需要多线程的时候更多地使用的是synchronized关键字来进行同步.个人而言,更多的原因是对volatil ...
Integration Services 服务连接失败，拒绝访问以及无法检索数据报错问题
第一个方法比较简单:把域账号添加admin组即可: 第二种方法: 添加域账号到分布式 COM 组命令提示符下运行 dcomcnfg.exe 下一步下一步启动和激活权限下一步访问权限同上设置 ...
CSS样式表学习
---恢复内容开始--- 今天学习的主要内容是样式表和选择器. 1.样式表的分类 1.内联式样式表特点:能实现精确控制,但是范围太小.页面显示的优先级高于其他样式表 2.内嵌式样式表特点:必须在h ...
Java的类的实例化顺序
Java的类的实例化顺序父类的静态数据子类的静态数据父类的成员变量父类的构造方法子类的成员变量子类的构造方法
CMDB运维开发项目
ITIL:Information Technology Infrastructure Library 信息技术基础架构库,主要适用于IT服务管理(ITSM).ITIL为企业的IT服务管理实践提供了一个 ...
JavaScrip:Function函数编程
自定义函数定义 1.函数通过function关键字创建,函数创建格式: function 函数名称([参数,...]){ 代码段; return 返回值; } 注意事项: 函数名称不要包含特殊字符函 ...
fastboot模式
快速启动. 在安卓手机中fastboot是一种比recovery更底层的刷机模式. fastboot是一种线刷,就是使用USB数据线连接手机的一种刷机模式. recovery是一种卡刷,就是将刷机包放 ...
python科学计算之numpy
1.np.logspace(start,stop,num): 函数表示的意思是;在(start,stop)间生成等比数列num个 eg: import numpy as np print np.log ...
成功破解邻居的Wifi密码
// 这是一篇导入进来的旧博客,可能有时效性问题. 默认配置的路由器,8位以下密码,黑客几分钟就可以破解.以前用自己的路由器做过实验,这次真正实践成功.环境:Kali Linux工具集:aircrac ...
MongoDB入门学习笔记之简介与安装配置
一.MongoDB简介 1.文档数据库 MongoDB是一款开源的文档型非关系数据库,具有高性能.高可靠性和自动扩展等特点.MongoDB中的每一条记录是一个文档,其数据存储结构为键/值对,类似JSO ...

CUDA共享内存的使用示例

CUDA共享内存的使用示例的更多相关文章

随机推荐

热门专题