在GPU并行编程中，一般情况下，各个处理器都需要了解其他处理器的执行状态，在各个并行副本之间进行通信和协作，这涉及到不同线程间的通信机制和并行执行线程的同步机制。

共享内存“share”

CUDA中的线程协作主要是通过共享内存实现的。使用关键字“__share__”声明共享变量，将使这个变量驻留在共享内存中，该变量具有以下特征：

位于线程块的共享存储器空间中
与线程块具有相同的生命周期
仅可通过块内的所有线程访问

对于GPU上启动的每个线程块，CUDA C编译器都将创建该变量的一个副本。线程块中的每个线程都共享这块内存，但线程却无法看到也不能修改其他线程块的变量副本。这就使得一个线程块中的多个线程能够在计算上进行通信和协作。而且，共享内存缓冲区驻留在物理GPU上，在访问共享内存时的延迟要远远低于访问普通缓冲区的延迟，使得共享内存的访问非常高效。

线程同步机制“__syncthreads()”

关键字“__share__”只是声明了共享变量，位于同一个线程块中的不同线程都可以访问该变量，如果没有同步机制，将会发生竞态条件 (Race Condition)，导致错误的运行结果。

CUDA确保同步的方法是调用“__syncthreads()”。__syncthreads()将确保线程块中的每个线程都执行完 __syncthreads()前面的语句后，才会执行下一条语句。

以下是CUDA和OpenCV的应用中，绘制一幅图像，Grid的尺寸大小是60*60，Block的尺寸大小是10*10，在各个线程块内声明了一个共享变量sharedMem：

#include "cuda_runtime.h"

#include <highgui.hpp>    

using namespace cv;

#define DIM 600   //图像长宽

#define PI 3.1415926535897932f  

__global__ void kernel(unsigned char *ptr)

{

	// map from blockIdx to pixel position

	int x = threadIdx.x + blockIdx.x * blockDim.x;

	int y = threadIdx.y + blockIdx.y * blockDim.y;

	int offset = x + y * blockDim.x * gridDim.x;

	__shared__  float sharedMem[16][16];

	const float period = 128.0f;

	sharedMem[threadIdx.x][threadIdx.y] =

		255 * (sinf(x*2.0f*PI / period) + 1.0f) *

		(sinf(y*2.0f*PI / period) + 1.0f) / 4.0f;

	__syncthreads();

	ptr[offset * 3 + 0] = 0;

	ptr[offset * 3 + 1] = sharedMem[15 - threadIdx.x][15 - threadIdx.y];

	ptr[offset * 3 + 2] = 0;

}

// globals needed by the update routine

struct DataBlock

{

	unsigned char   *dev_bitmap;

};

int main(void)

{

	DataBlock   data;

	cudaError_t error;

	Mat image = Mat(DIM, DIM, CV_8UC3, Scalar::all(0));

	data.dev_bitmap = image.data;

	unsigned char    *dev_bitmap;

	error = cudaMalloc((void**)&dev_bitmap, 3 * image.cols*image.rows);

	data.dev_bitmap = dev_bitmap;

	dim3    grid(DIM / 10, DIM / 10);

	dim3   block(10, 10);

	//DIM*DIM个线程块

	kernel << <grid, block >> > (dev_bitmap);

	error = cudaMemcpy(image.data, dev_bitmap,

		3 * image.cols*image.rows,

		cudaMemcpyDeviceToHost);

	error = cudaFree(dev_bitmap);

	imshow("__share__ and __syncthreads()", image);

	waitKey();

}

如果线程间不加入__syncthreads()同步机制，同一线程块内不同线程访问sharedMem，获取的结果可能是不一样的，生成的图像如下，有散乱的杂点：

加入__syncthreads()同步机制，保证了同一线程块中不同的线程都执行完成__syncthreads()这个集合点之前的部分之后，才继续往下执行，所以不同的线程访问sharedMem获取的结果是一致的，图像无杂散点，是一个规律的排布：

CUDA线程协作之共享存储器“shared”&&“__syncthreads()”的更多相关文章

GPU编程自学5 —— 线程协作
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
基于 Java 2 运行时安全模型的线程协作--转
在 Java 2 之前的版本,运行时的安全模型使用非常严格受限的沙箱模型(Sandbox).读者应该熟悉,Java 不受信的 Applet 代码就是基于这个严格受限的沙箱模型来提供运行时的安全检查.沙 ...
java线程系列之三（线程协作）
本文来自:高爽|Coder,原文地址:http://blog.csdn.net/ghsau/article/details/7433673,转载请注明. 上一篇讲述了线程的互斥(同步),但是在很多情况 ...
JAVA并发-线程协作
这段时间有点忙,技术博客更新的比较少,今天更新一下相关并发的常用线程协作的类吧. ExecutorService 线程池,用于创造和复用线程,他有几种模式. 我举一个自定义线程池数量的例子如下 Exe ...
Java多线程之线程协作
Java多线程之线程协作一.前言上一节提到,如果有一个线程正在运行synchronized 方法,那么其他线程就无法再运行这个方法了.这就是简单的互斥处理. 假如我们现在想执行更加精确的控制,而不 ...
第41天学习打卡（死锁 Lock synchronized与Lock的对比线程协作使用线程池）
死锁多个线程各自占有一些共享资源,并且互相等待其他线程占有的资源才能运行,而导致两个或者多个线程都在等待对方释放资源,都停止执行的情形.某一个同步块同时拥有"两个以上对象的锁"时 ...
GPU（CUDA）学习日记（十一）------ 深入理解CUDA线程层次以及关于设置线程数的思考
GPU线程以网格(grid)的方式组织,而每个网格中又包含若干个线程块,在G80/GT200系列中,每一个线程块最多可包含512个线程,Fermi架构中每个线程块支持高达1536个线程.同一线程块中的 ...
CUDA线程
建议先看看前言中关于存储器的介绍:点击打开链接线程首先介绍进程,进程是程序的一次执行,线程是进程内的一个相对独立的可执行的单元.若把进程称为任务的话,那么线程则是应用中的一个子任务的执行.举个简单 ...
【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...

随机推荐

1、Java快速入门
第一课 Java基础1. ubuntu上环境搭建 (建议使用我们提供的VMWare映象文件) 如果要自己安装ubuntu, 请参考<韦东山Android系统视频使用手册.pdf> ubun ...
IT从业人员关注哪些问题
技术人员关注的问题非常多,但常见的至少有以下6种.特此整理,抓住核心问题,解决它. 一个人的精力和时间往往非常有限,能把核心问题都解决到位就是成功. 1.职业规划大家从读小学开始,就是在为职业规划过 ...
IIS7配置PHP图解
IIS6整合PHP详解:http://zhidao.zgsj.com/article/8/2011118142648.shtml PHP5.2.17 官方下载: http://windows.php. ...
php课程 1-3 web项目中php、html、js代码的执行顺序是怎样的（详解）
php课程 1-3 web项目中php.html.js代码的执行顺序是怎样的(详解) 一.总结一句话总结:b/s结构总是先执行服务器端的先.js是客户端脚本 ,是最后执行的.所以肯定是php先执行 ...
两个常见Qt编译错误的解决
作者:朱金灿来源:http://blog.csdn.net/clever101 如果在电脑上安装了两个Qt版本,在编译一个工程时有可能出现如下的编译错误: ERROR: failed to refr ...
26、从零写UVC驱动之分析描述符
指令:lsusb 可以查看usb设备的描述符信息,当然lsusb指令要带一些参数一个usb设备有多个config配置+设备描述符,一个config有多个接口和association.config描述 ...
[AngularFire2] Auth with Firebase auth -- email
First, you need to enable the email auth in Firebase console. Then implement the auth service: login ...
程序猿学英语——In September the English learning summary
转眼间9月份又过去了,又该好好总结一下这个月的英语学习情况了. 在暑假快结束的时候.9期师姐给我们測了英语快照.当初測的时候就发现一个问题:当測自己听过尤其是读过的东西的时候,自己都能听出来.測自己 ...
thinkphp3.2使用join联合查询
$members=$model->table('zhope_card A') ->join('zhope_user U ON A.adduser=U.id',"LEFT" ...
制作Kinect体感控制小车教程 <一>
转载请注明出处:http://blog.csdn.net/lxk7280 Kinect体感控制小车 Kine ...

CUDA线程协作之共享存储器“__shared__”&&“__syncthreads()”

共享内存“__share__”

线程同步机制“__syncthreads()”

CUDA线程协作之共享存储器“__shared__”&&“__syncthreads()”的更多相关文章

随机推荐

热门专题

CUDA线程协作之共享存储器“shared”&&“__syncthreads()”

共享内存“share”

CUDA线程协作之共享存储器“shared”&&“__syncthreads()”的更多相关文章