《GPU高性能编程CUDA实战》附录一高级原子操作

▶ 本章介绍了手动实现原子操作。重构了第五章向量点积的过程。核心是通过定义结构Lock及其运算，实现锁定，读写，解锁的过程。

● 章节代码

 #include <stdio.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "cuda.h"

 #include "D:\Code\CUDA\book\common\book.h"

 #define imin(a,b)       (a<b?a:b)

 #define sum_squares(x)  (x*(x+1)*(2*x+1)/6)

 #define N               33 * 1024 * 1024

 #define THREADSIZE      256

 #define BLOCKSIZE       imin(32, (N + THREADSIZE - 1) / THREADSIZE)

 struct Lock

 {

     int *mutex;

     Lock(void)

     {

         int state = ;

         cudaMalloc((void **)&mutex, sizeof(int));

         cudaMemcpy(mutex, &state, sizeof(int), cudaMemcpyHostToDevice);

     }

     ~Lock(void)

     {

         cudaFree(mutex);

     }

     __device__ void lock(void)

     {

         while (atomicCAS(mutex, , ) != );

         //atomicCAS(a, b, c)将判断变量a是否等于b，

         //若相等，则用c的值去替换a，并返回c的值；若不相等，则返回a的值

         //函数lock()中，线程不断尝试判断mutex是否为0，

         //若为0则改写为1 ，表明“占用”，禁止其他线程进行访问

         //若为1则继续尝试判断

     }

     __device__ void unlock(void)

     {

         atomicExch(mutex, );

         //atomicExch(a, b)返回第一个变量的值，并将两个变量的值进行交换

         //这里使用原子操作只是与上面的atomicCAS统一，否则可以直接用赋值语句

         //线程操作完成，将mutex改写回0，允许其他线程进行访问

     }

 };

 __global__ void dot(Lock lock, float *a, float *b, float *c)

 {

     __shared__ float share[THREADSIZE];

     int tid = threadIdx.x + blockIdx.x * blockDim.x;

     int cacheIndex = threadIdx.x;

     float   temp = ;

     while (tid < N)

     {

         temp += a[tid] * b[tid];

         tid += blockDim.x * gridDim.x;

     }

     share[cacheIndex] = temp;

     __syncthreads();

     int i = blockDim.x / ;

     while (i != )

     {

         if (cacheIndex < i)

             share[cacheIndex] += share[cacheIndex + i];

         __syncthreads();

         i /= ;

     }

     if (cacheIndex == )

     {

         lock.lock();// 等待可写入的机会，锁上，写入，再解锁

         *c += share[];

         lock.unlock();

     }

 }

 int main(void)

 {

     float   *a, *b, c = ;

     float   *dev_a, *dev_b, *dev_c;

     a = (float*)malloc(N * sizeof(float));

     b = (float*)malloc(N * sizeof(float));

     cudaMalloc((void**)&dev_a, N * sizeof(float));

     cudaMalloc((void**)&dev_b, N * sizeof(float));

     cudaMalloc((void**)&dev_c, sizeof(float));

     for (int i = ; i < N; i++)

     {

         a[i] = i;

         b[i] = i * ;

     }

     cudaMemcpy(dev_a, a, N * sizeof(float), cudaMemcpyHostToDevice);

     cudaMemcpy(dev_b, b, N * sizeof(float), cudaMemcpyHostToDevice);

     cudaMemcpy(dev_c, &c, sizeof(float), cudaMemcpyHostToDevice);

     Lock lock;

     dot << <BLOCKSIZE, THREADSIZE >> > (lock, dev_a, dev_b, dev_c);

     cudaMemcpy(&c, dev_c, sizeof(float), cudaMemcpyDeviceToHost);

     printf("\n\tAnswer:\t\t%.6g\n\tGPU value:\t%.6g\n",  * sum_squares((float)(N - )), c);

     free(a);

     free(b);

     cudaFree(dev_a);

     cudaFree(dev_b);

     cudaFree(dev_c);

     getchar();

     return ;

 }

《GPU高性能编程CUDA实战》附录一高级原子操作的更多相关文章

[问题解决]《GPU高性能编程CUDA实战》中第4章Julia实例“显示器驱动已停止响应，并且已恢复”问题的解决方法
以下问题的出现及解决都基于"WIN7+CUDA7.5". 问题描述:当我编译运行<GPU高性能编程CUDA实战>中第4章所给Julia实例代码时,出现了显示器闪动的现象 ...
《GPU高性能编程CUDA实战》附录二散列表
▶ 使用CPU和GPU分别实现散列表 ● CPU方法 #include <stdio.h> #include <time.h> #include "cuda_runt ...
《GPU高性能编程CUDA实战》附录四其他头文件
▶ cpu_bitmap.h #ifndef __CPU_BITMAP_H__ #define __CPU_BITMAP_H__ #include "gl_helper.h" st ...
《GPU高性能编程CUDA实战》附录三关于book.h
▶ 本书中用到的公用函数放到了头文件book.h中 #ifndef __BOOK_H__ #define __BOOK_H__ #include <stdio.h> #include &l ...
《GPU高性能编程CUDA实战》第十一章多GPU系统的CUDA C
▶ 本章介绍了多设备胸膛下的 CUDA 编程,以及一些特殊存储类型对计算速度的影响 ● 显存和零拷贝内存的拷贝与计算对比 #include <stdio.h> #include " ...
《GPU高性能编程CUDA实战》第五章线程并行
▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...
《GPU高性能编程CUDA实战》第四章简单的线程块并行
▶ 本章介绍了线程块并行,并给出两个例子:长向量加法和绘制julia集. ● 长向量加法,中规中矩的GPU加法,包含申请内存和显存,赋值,显存传入,计算,显存传出,处理结果,清理内存和显存.用到了 t ...
《GPU高性能编程CUDA实战》第八章图形互操作性
▶ OpenGL与DirectX,等待填坑. ● basic_interop #include <stdio.h> #include "cuda_runtime.h" ...
《GPU高性能编程CUDA实战》第七章纹理内存
▶ 本章介绍了纹理内存的使用,并给出了热传导的两个个例子.分别使用了一维和二维纹理单元. ● 热传导(使用一维纹理) #include <stdio.h> #include "c ...

随机推荐

Maven配置dubbo环境简单例子
环境准备: 1.zookeeper:zookeeper-3.4.6版本 2.maven:apache-maven-3.3.9版本 3.dubbo监控工具:dubbo-admin-2.5.4-SNAPS ...
使用 WPF 开发一个 Windows 屏幕保护程序
最近有小伙伴问我如何可以让 Windows 静置一段时间不操作之后,显示一个特殊的界面.我想了想,屏幕保护程序可以做到这一点,而且,屏幕保护程序的开发也是非常简单的. 本文将介绍如何为 Windows ...
@ModelAttribute的用法
Linux设备树使用（二）
一.设备树与驱动的匹配1.设备树会被/scripts中的dtc可执行程序编译成二进制.dtb文件,之前设备树中的节点信息会以单链表的形式存储在这个.dtb文件中:驱动与设备树中compatible属性 ...
Swift 学习笔记十五：扩展
扩展就是向一个已有的类.结构体或枚举类型加入新功能(functionality).扩展和 Objective-C 中的分类(categories)相似.(只是与Objective-C不同的是,Swif ...
web上传照片
.toDataURL() FileReader对象也有类似的方法,比如.readAsDataURL(),然而它只接受file或blob类型,而这两种类型一般只能通过<input[type=fil ...
Eclipse相对路径
Eclipse将java源文件存于src文件夹,而编译生成的class文件存于bin目录下,故以下代码输出的结果为false public class FileTest { public static ...
SQL群集多实例卸载、安装
安装SQL多实例群集: 准备工作:准备SQL群集管理员及服务账号:sqladmin和srv-sql,sqladmin和srv-sql都属于群集节点计算机的administrators组预留群集名称账 ...
protobuf 协议 windows 下 C++ 环境搭建
1. 下载protobuf https://code.google.com/p/protobuf/downloads/list Protocol Buffers 2.5.0 full source - ...
什么是JavaBean、bean? 什么是POJO、PO、DTO、VO、BO ? 什么是EJB、EntityBean？
什么是JavaBean.bean? 什么是POJO.PO.DTO.VO.BO ? 什么是EJB.EntityBean? 前言: 在Java开发中经常遇到这些概念问题,有的可能理解混淆,有的 ...

《GPU高性能编程CUDA实战》附录一 高级原子操作

《GPU高性能编程CUDA实战》附录一 高级原子操作的更多相关文章

随机推荐

热门专题

《GPU高性能编程CUDA实战》附录一高级原子操作

《GPU高性能编程CUDA实战》附录一高级原子操作的更多相关文章