CUDA C Programming Guide 在线教程学习笔记 Part 9

▶ 协作组，要求 cuda ≥ 9.0，一个简单的例子见 http://www.cnblogs.com/cuancuancuanhao/p/7881093.html

● 灵活调节需要进行通讯的线程组合（不一定是线程块或是线程束）的尺寸，在更多粒度上进行线程协作。

● 协作组功能支持 CUDA 的各种并行模式，包括生产者 - 消费者并行（producer-consumer parallelism），机会并行（opportunistic parallelism），全网个同步（global synchronization）。

● 构成要素：① 参与协作的线程组合（即协作组整体）的数据类型；② 从 CUDA lauch API 中创建协作组（intrinsic groups？）的操作；③ 将现有协作组划分为新的协作组的操作；④ 协作组内的栅栏同步函数；⑤ 检查组内属性和执行组内特定命令的操作（如线程表决函数）。

● 块内协作组（Intra-block Group）使用方法。

 # include <cooperative_groups.h>        // 使用的头文件

 using namespace cooperative_groups;     // 命名空间

 thread_block g = this_thread_block();   // 将当前线程块打包为一个协作组，命名为 g

 thread_group gTile = tiled_partition(g, SIZE);

 // 将之前的协作组分割成大小为 SIZE 的协作组（SIZE 可以取 1，2，4，8，16，32），但组内不能使用线程束表决函数和统筹函数

 thread_block_tile<SIZE> gTile = tiled_partition<SIZE>(g);

 // 同样的分割函数，使用模板函数，编译时处理，比函数 tiled_partition() 更高效，且组内可以使用线程束表决函数和统筹函数

 // 协作组的一些方法

 void sync();                            // 协作组同步（协作组内的线程栅栏同步）

 unsigned size();                        // 获得协作组的大小（线程个数）

 unsigned thread_rank();                 // 获得当前线程在协作组内的编号

 bool is_valid();                        // 协作组是否有效（符合 API 约束）

 dim3 group_index();                     // 指出当前线程块在线程格中的编号

 dim3 thread_index();                    // 指出当前线程在线程块中的编号

 // 协作组内也可以使用的表决函数和统筹函数（成员函数）

 int shfl();

 int shfl_down();

 int shfl_up();

 int shfl_xor();

 int any();

 int all();

 int ballot();

 int match_any();

 int match_all();

● 线程束发生分支的时候设备将会串行执行每个分支，在同道中保持活跃的所有线程称为合并的，协作组有能力发现并为合并的线程创建一个组。

 coalesced_group active = coalesced_threads();// 在分支中，将当前活跃的线程创建为一个协作组

● 发现模式。两个示例代码段等价，但没看懂在干什么。

 {

     unsigned int writemask = __activemask();

     unsigned int total = __popc(writemask);

     unsigned int prefix = __popc(writemask & __lanemask_lt());

     // Find the lowest-numbered active lane

     int elected_lane = __ffs(writemask) - ;

     int base_offset = ;

     if (prefix == )

         base_offset = atomicAdd(p, total);

     base_offset = __shfl_sync(writemask, base_offset, elected_lane);

     int thread_offset = prefix + base_offset;

     return thread_offset;

 }

 {

     cg::coalesced_group g = cg::coalesced_threads();

     int prev;

     if (g.thread_rank() == )

         prev = atomicAdd(p, g.size());

     prev = g.thread_rank() + g.shfl(prev, );

     return prev;

 }

● 线程格同步，需要额外的一些步骤。

 // 通过 CUDA Driver API 的函数 cuDeviceGetAttribute() 来检查设备是否支持 cooperative launch 属性

 int pi = ;

 cuDevice dev;

 cuDeviceGet(&dev, )

 cuDeviceGetAttribute(&pi, CU_DEVICE_ATTRIBUTE_COOPERATIVE_LAUNCH, dev);// 如果支持，则 pi 被置 1

 // 使用函数 cudaLaunchCooperativeKernel() 或 CUDA Driver API 中的几种调用方法来启动内核，不能使用 <<< >>>

 cudaLaunchCooperativeKernel(const T *func, dim3 gridDim, dim3 blockDim, void **args, size_t sharedMem = , cudaStream_t stream = );

 // 建议精心优化线程格尺寸和线程块尺寸（下面两例分别是使用最大线程块数和自动优化线程块数）

 {

     cudaDeviceProp deviceProp;

     cudaGetDeviceProperties(&deviceProp, dev);

     cudaLaunchCooperativeKernel((void*)my_kernel, deviceProp.multiProcessorCount, numThreads, args);

 }

 {

     cudaOccupancyMaxActiveBlocksPerMultiprocessor(&numBlocksPerSm, my_kernel, numThreads, ));

     cudaLaunchCooperativeKernel((void*)my_kernel, numBlocksPerSm, numThreads, args);

 }

 // 使用函数 this_grid() 来获得当前线程格，以及使用线程格同步函数

 grid_group grid = this_grid();

 grid.sync();

 // 编译命令，打开 Relocatable Device Code（允许分离编译）

 nvcc - arch = sm_61 - rdc = true mytestfile.cu - o mytest

● 多设备同步，需要额外的一些步骤。

 // 通过 CUDA Driver API 的函数 cuDeviceGetAttribute() 来检查设备是否支持 cooperative multi-device launch 属性

 int pi = ;

 cuDevice dev;

 cuDeviceGet(&dev, )

 cuDeviceGetAttribute(&pi, CU_DEVICE_ATTRIBUTE_COOPERATIVE_MULTI_DEVICE_LAUNCH, dev);// 如果支持，则 pi 被置 1

 // 使用结构 CUDA_LAUNCH_PARAMS_st 来存储需要调用的内核的相关参数

 typedef struct CUDA_LAUNCH_PARAMS_st

 {

     CUfunction function;

     unsigned int gridDimX;

     unsigned int gridDimY;

     unsigned int gridDimZ;

     unsigned int blockDimX;

     unsigned int blockDimY;

     unsigned int blockDimZ;

     unsigned int sharedMemBytes;

     CUstream hStream;

     void **kernelParams;

 }

 CUDA_LAUNCH_PARAMS; 

 // 使用函数 cudaLaunchCooperativeKernelMultiDevice() 来启动内核，该函数允许主机线程创建一个跨设备的内核，以提供多设备同步功能

 cudaLaunchCooperativeKernelMultiDevice(CUDA_LAUNCH_PARAMS *launchParamsList, unsigned int numDevices);

 // 使用函数 this_multi_grid() 来获得当前线程格，以及使用多设备同步函数

 multi_grid_group multi_grid = this_multi_grid();

 multi_grid.sync();

 // 编译命令，与线程格同步相同

■ 其他要点：

① 该 API 保证了操作的原子性，保证各主机线程在所有指定设备上独立的启动内核；不能将两个 launchParamsList 映射到同一个设备上

② 使用的所有设备必须具有相同的计算能力 major 和 minor 号；所有设备上使用的线程格尺寸、线程块尺寸和共享内存大小必须相同；通过该 API 启动的函数应该是相同的，API 内并没有内置相关检查。

③ 内核中使用的所有 __device__，__constant__，__managed__ 变量在各设备中相互独立，应该在启动内存钱分别初始化完成。

CUDA C Programming Guide 在线教程学习笔记 Part 9的更多相关文章

CUDA C Programming Guide 在线教程学习笔记 Part 5
附录 A,CUDA计算设备附录 B,C语言扩展 ▶ 函数的标识符 ● __device__,__global__ 和 __host__ ● 宏 __CUDA_ARCH__ 可用于区分代码的运行位置. ...
CUDA C Programming Guide 在线教程学习笔记 Part 4
▶ 图形互操作性,OpenGL 与 Direct3D 相关.(没学过,等待填坑) ▶ 版本号与计算能力 ● 计算能力(Compute Capability)表征了硬件规格,CUDA版本号表征了驱动接口 ...
CUDA C Programming Guide 在线教程学习笔记 Part 2
▶ 纹理内存使用 ● 纹理内存使用有两套 API,称为 Object API 和 Reference API .纹理对象(texture object)在运行时被 Object API 创建,同时指定 ...
CUDA C Programming Guide 在线教程学习笔记 Part 10【坑】
▶ 动态并行. ● 动态并行直接从 GPU 上创建工作,可以减少主机和设备间数据传输,在设备线程中调整配置.有数据依赖的并行工作可以在内核运行时生成,并利用 GPU 的硬件调度和负载均衡.动态并行要求 ...
CUDA C Programming Guide 在线教程学习笔记 Part 13
▶ 纹理内存访问补充(见纹理内存博客 http://www.cnblogs.com/cuancuancuanhao/p/7809713.html) ▶ 计算能力 ● 不同计算能力的硬件对计算特性的支持 ...
CUDA C Programming Guide 在线教程学习笔记 Part 8
▶ 线程束表决函数(Warp Vote Functions) ● 用于同一线程束内各线程通信和计算规约指标. // device_functions.h,cc < 9.0 __DEVICE_FU ...
CUDA C Programming Guide 在线教程学习笔记 Part 7
▶ 可缓存只读操作(Read-Only Data Cache Load Function),定义在 sm_32_intrinsics.hpp 中.从地址 adress 读取类型为 T 的函数返回,T ...
CUDA C Programming Guide 在线教程学习笔记 Part 3
▶ 表面内存使用 ● 创建 cuda 数组时使用标志 cudaArraySurfaceLoadStore 来创建表面内存,可以用表面对象(surface object)或表面引用(surface re ...
CUDA C Programming Guide 在线教程学习笔记 Part 1
1. 简介 2. 编程模型 ▶ SM version 指的是硬件构架和特性,CUDA version 指的是软件平台版本. 3. 编程接口.参考 http://chenrudan.github.io/ ...

随机推荐

touch事件（寻找触摸点 e.changedTouches）
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
Oracle查询今天、昨天、本周、上周、本月、上月数据
查询今天数据: SELECT COUNT(1) FROM T_CALL_RECORDS WHERE TO_CHAR(T_RKSJ,'YYYY-MM-DD')=TO_CHAR(SYSDATE,'YYYY ...
1050. 螺旋矩阵(25) pat乙级题
本题要求将给定的N个正整数按非递增的顺序,填入“螺旋矩阵”.所谓“螺旋矩阵”,是指从左上角第1个格子开始,按顺时针螺旋方向填充.要求矩阵的规模为m行n列,满足条件:m*n等于N:m>=n:且m- ...
hadoop之 node manager起不来，执行mapreduce 程序hang住
现象: node manager起不来, 执行mapreduce 程序hang住 namenode 进程状态查询[root@hadp-master sbin]# jps8608 ResourceMan ...
CF 1013E Hills——隔项转移的DP
题目:http://codeforces.com/contest/1013/problem/E 设 dp[ i ][ j ][ 0/1 ] 表示前 i 个位置,有 j 个山峰,第 i 个位置不是/是山 ...
TroubleShoot: Fail to deploy Windows UAP to device: 0x80073CFD
After creating "Blank App(Windows Universal)" targeting Windows Phone 10 in Visual Studio ...
对比两个表中，字段名不一样的SQL
需要包括有几种情况一.A表中有的字段B表无二.B表有的A表无三.两个表字段名不一致的 --------------------------------------------------------- ...
AngularJS---核心特性
步入正题.学习Angular,首先得了解.熟知.掌握它的四大核心特性. 一.MVC模式 Model(模型):是应用程序中用于处理应用程序数据逻辑的部分,通常模型对象负责在数据库中存取数据. View( ...
Delphi控件备份工具
用途: 1.如果您需要重装Delphi,想省去重装控件的麻烦. 2.如果您把Delphi环境安装至另一台电脑上. 那么,您一定需要这个! 运行批处理后,自动在当前目录下生成备份目录. 批处理代码 @e ...
执行Chrome自动化时--正在受到自动软件的控制的显示屏蔽
用selenium启动,浏览器出现‘Chrome正在受到自动软件的控制’ 屏蔽的方法: # coding:utf-8 from selenium import webdriver # 加启动配置 op ...

CUDA C Programming Guide 在线教程学习笔记 Part 9

CUDA C Programming Guide 在线教程学习笔记 Part 9的更多相关文章

随机推荐

热门专题