CUDA 程序中的同步

前言

　　在并发，多线程环境下，同步是一个很重要的环节。同步即是指进程/线程之间的执行顺序约定。

　　本文将介绍如何通过共享内存机制实现块内多线程之间的同步。

　　至于块之间的同步，需要使用到 global memory，代价较为高昂，目前使用的情况也不多，就先不介绍了。

块内同步函数：__syncthreads ()

　　线程调用此函数后，该线程所属块中的所有线程均运行到这个调用点后才会继续往下运行。

代码示例

　　使用同步思想优化之前一篇博文中提到的数组求和程序。在新的程序中，让每个块中的第一个线程将块中所有线程的运算结果都加起来，然后再存入到结果数组中。这样，结果数组的长度与块数相等 (原来是和总线程数相等)，大大降低了 CPU 端程序求和的工作量以及需要传递进/出显存的数据 (代码下方如果出现红色波浪线无视之)：

 // 相关 CUDA 库

 #include "cuda_runtime.h"

 #include "cuda.h"

 #include "device_launch_parameters.h"

 // 此头文件包含 __syncthreads ()函数

 #include "device_functions.h"

 #include <iostream>

 #include <cstdlib>

 using namespace std;

 const int N = ;

 // 块数

 const int BLOCK_data = ;

 // 各块中的线程数

 const int THREAD_data = ; 

 // CUDA初始化函数

 bool InitCUDA()

 {

     int deviceCount; 

     // 获取显示设备数

     cudaGetDeviceCount (&deviceCount);

     if (deviceCount == )

     {

         cout << "找不到设备" << endl;

         return EXIT_FAILURE;

     }

     int i;

     for (i=; i<deviceCount; i++)

     {

         cudaDeviceProp prop;

         if (cudaGetDeviceProperties(&prop,i)==cudaSuccess) // 获取设备属性

         {

             if (prop.major>=) //cuda计算能力

             {

                 break;

             }

         }

     }

     if (i==deviceCount)

     {

         cout << "找不到支持 CUDA 计算的设备" << endl;

         return EXIT_FAILURE;

     }

     cudaSetDevice(i); // 选定使用的显示设备

     return EXIT_SUCCESS;

 }

 // 此函数在主机端调用，设备端执行。

 __global__

 static void Sum (int *data,int *result)

 {

     // 声明共享内存 (数组)

     extern __shared__ int shared[];

     // 取得线程号

     const int tid = threadIdx.x;

     // 获得块号

     const int bid = blockIdx.x; 

     shared[tid] = ;

     // 有点像网格计算的思路

     for (int i=bid*THREAD_data+tid; i<N; i+=BLOCK_data*THREAD_data)

     {

         shared[tid] += data[i];

     }

     // 块内线程同步函数

     __syncthreads ();

     // 每个块内索引为 0 的线程对其组内所有线程的求和结果再次求和

     if (tid == ) {

         for(int i = ; i < THREAD_data; i++) {

             shared[] += shared[i];

         }

         // result 数组存放各个块的计算结果

         result[bid] = shared[];

     }

 }

 int main ()

 {

     // 初始化 CUDA 编译环境

     if (InitCUDA()) {

         return EXIT_FAILURE;

     }

     cout << "成功建立 CUDA 计算环境" << endl << endl;

     // 建立，初始化，打印测试数组

     int *data = new int [N];

     cout << "测试矩阵: " << endl;

     for (int i=; i<N; i++)

     {

         data[i] = rand()%;

         cout << data[i] << " ";

         if ((i+)% == ) cout << endl;

     }

     cout << endl;

     int *gpudata, *result; 

     // 在显存中为计算对象开辟空间

     cudaMalloc ((void**)&gpudata, sizeof(int)*N);

     // 在显存中为结果对象开辟空间

     cudaMalloc ((void**)&result, sizeof(int)*BLOCK_data);

     // 将数组数据传输进显存

     cudaMemcpy (gpudata, data, sizeof(int)*N, cudaMemcpyHostToDevice);

     // 调用 kernel 函数 - 此函数可以根据显存地址以及自身的块号，线程号处理数据。

     Sum<<<BLOCK_data,THREAD_data,THREAD_data*sizeof (int)>>> (gpudata,result);

     // 在内存中为计算对象开辟空间

     int *sumArray = new int[BLOCK_data];

     // 从显存获取处理的结果

     cudaMemcpy (sumArray, result, sizeof(int)*BLOCK_data, cudaMemcpyDeviceToHost);

     // 释放显存

     cudaFree (gpudata);

     cudaFree (result);

     // 计算 GPU 每个块计算出来和的总和

     int final_sum=;

     for (int i=; i<BLOCK_data; i++)

     {

         final_sum += sumArray[i];

     }

     cout << "GPU 求和结果为: " << final_sum << endl;

     // 使用 CPU 对矩阵进行求和并将结果对照

     final_sum = ;

     for (int i=; i<N; i++)

     {

         final_sum += data[i];

     }

     cout << "CPU 求和结果为: " << final_sum << endl;

     getchar();

     return ;

 }

运行结果

　　PS：矩阵元素是随机生成的

小结

　　共享内存，或者说这个共享数组是 CUDA 中实现同步最常用的方法。

CUDA 程序中的同步的更多相关文章

第五篇：CUDA 并行程序中的同步
前言在并发,多线程环境下,同步是一个很重要的环节.同步即是指进程/线程之间的执行顺序约定. 本文将介绍如何通过共享内存机制实现块内多线程之间的同步. 至于块之间的同步,需要使用到 global me ...
微信小程序中同步异步的使用
https://www.jianshu.com/p/e92c7495da76 微信小程序中使用Promise进行异步流程处理 https://www.cnblogs.com/cckui/p/102 ...
微信小程序中使用Async-await方法异步请求变为同步请求
微信小程序中有些 Api 是异步的,无法直接进行同步处理.例如:wx.request.wx.showToast.wx.showLoading等.如果需要同步处理,可以使用如下方法: 注意: Async ...
WeChat-SmallProgram：微信小程序中使用Async-await方法异步请求变为同步请求
微信小程序中有些 Api 是异步的,无法直接进行同步处理.例如:wx.request.wx.showToast.wx.showLoading 等.如果需要同步处理,可以使用如下方法: 提示:Async ...
CUDA程序的调试总结【不定时更新】
1 )CUDA的程序,经常犯,但是很难发现的一个错误就是同步问题. 描述下实例 for (k = 0; k < N; k+=BS) { sda[tx] = gda[tx+index]; __sy ...
zz剖析为什么在多核多线程程序中要慎用volatile关键字？
[摘要]编译器保证volatile自己的读写有序,但由于optimization和多线程可以和非volatile读写interleave,也就是不原子,也就是没有用.C++11 supposed会支持 ...
iOS中线程同步基本详解
为什么使用线程同步技术:多个线程是同时执行的如果多个线程同时操作一个资源会造成此资源的数据错乱线程同步简介线程同步,多条线程按顺序地访问某个资源注意:此处的同步不是一起执行的意思是一个一个 ...
JAVA中线程同步的方法（7种）汇总
同步的方法: 一.同步方法即有synchronized关键字修饰的方法. 由于java的每个对象都有一个内置锁,当用此关键字修饰方法时, 内置锁会保护整个方法.在调用该方法前,需要获得内置锁,否则就 ...
C#中的线程(中)-线程同步
1.同步要领下面的表格列展了.NET对协调或同步线程动作的可用的工具: 简易阻止方法构成目的 Sleep 阻止给定的时间周期 Join 等待另一个线程 ...

随机推荐

使用OpenGL ES绘制3D图形
如果应用定义的顶点不在同一个平面上,并且使用三角形把合适的顶点连接起来,就可以绘制出3D图形了. 使用OpenGL ES绘制3D图形的方法与绘制2D图形的步骤大致相同,只是绘制3D图形需要定义更多的 ...
小记：使用SharedPreferences存储来设置程序第一次进入欢迎界面，以后不会再进入欢迎界面。
SharedPreferences mSharedPreferences = this.getSharedPreferences(NAME, this.MODE_PRIVATE); boolean f ...
Activity界面切换动画特效。
效果图: 结构图: 测试代码: 布局: 1 <?xml version="1.0" encoding="utf-8"?> 2 <LinearL ...
[css3]搜索框focus时变长
结构: <form class="demo-a"> <input placeholder="Search" type="sea ...
appjs desktop2
var express = require('express');var path = require('path');var favicon = require('serve-favicon');v ...
看项目得到info_freeCsdn-01闪屏页面
/** * 渐变展示启动屏 */ private void startAnimation() { Animation aa = new Animation() { }; aa.setDuration( ...
VMware Workstation 10.0.0.1295980 CN
从V10版本开始,VMware Workstation 官方自带简体中文了,以后大家不需要汉化啦! Winner of more than 50 industry awards, VMware Wor ...
color 的一些处理
1.UIImage转换成UIcolor cell.backgroundColor = [UIColor colorWithPatternImage:[UIImage imageNamed:@" ...
C#基础--面向过程计算器
//面向过程计算器 //思路: 需要注意的是: 两个数相除除数不能为0: //1.提示用户输入 //2.进行运算 //3.得到结果 Console.WriteLine("请输入第一个数字: ...
Python清理内存中的密码
基本不太好搞.可以参考如下讨论: http://stackoverflow.com/questions/728164/securely-erasing-password-in-memory-pytho ...

CUDA 程序中的同步

CUDA 程序中的同步的更多相关文章

随机推荐

热门专题