0_Simple__simpleOccupancy

计算核函数调用使得占用率，并尝试使用 runtime 函数自动优化线程块尺寸，以便提高占用率。

▶ 源代码。

 #include <iostream>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include <helper_cuda.h>         

 const int manualBlockSize = ;

 // 核函数，输入数组的每个元素平方后放回

 __global__ void square(int *array, int arrayCount)

 {

     extern __shared__ int dynamicSmem[];

     int idx = threadIdx.x + blockIdx.x * blockDim.x;

     if (idx < arrayCount)

         array[idx] *= array[idx];

 }

 // 负责调用核函数，计时，并考虑是否使用 runtime 函数优化线程块尺寸

 static int launchConfig(int *data, int size, bool automatic)

 {

     int blockSize;

     int numBlocks;

     int gridSize;

     int minGridSize;

     float elapsedTime;

     double potentialOccupancy;

     size_t dynamicSMemUsage = ;

     cudaDeviceProp prop;

     cudaGetDeviceProperties(&prop, );

     cudaEvent_t start;

     cudaEvent_t end;

     cudaEventCreate(&start);

     cudaEventCreate(&end);

     if (automatic)// true 则使用 runtime 函数自动优化线程块尺寸

     {

         cudaOccupancyMaxPotentialBlockSize(&minGridSize, &blockSize, (void*)square, dynamicSMemUsage, size);

         printf("\n\tSuggested block size: %d, minimum grid size for maximum occupancy: %d\n", blockSize, minGridSize);

     }

     else

         blockSize = manualBlockSize;

     gridSize = (size + blockSize - ) / blockSize;

     cudaEventRecord(start);

     square<<<gridSize, blockSize, dynamicSMemUsage>>>(data, size);

     cudaEventRecord(end);

     cudaDeviceSynchronize();

     cudaEventElapsedTime(&elapsedTime, start, end);

     printf("\n\tElapsed time: %4.2f ms\n", elapsedTime);

     // 依线程数计算占用率，分子分母同除以 prop.warpSize 即按活动线程束数计算，两者等价

     cudaOccupancyMaxActiveBlocksPerMultiprocessor(&numBlocks, square, blockSize, dynamicSMemUsage);

     potentialOccupancy = (double)(numBlocks * blockSize) / (prop.maxThreadsPerMultiProcessor);

     printf("\n\tPotential occupancy: %4.2f %%\n", potentialOccupancy * );

     return ;

 }

 // 负责核函数调用前后内存控制，以及结果检查

 static int test(bool automaticLaunchConfig, const int count = )

 {

     int size = count * sizeof(int);

     int *h_data = (int *)malloc(size);

     for (int i = ; i < count; i++)

         h_data[i] = i;

     int *d_data;

     cudaMalloc(&d_data, size);

     cudaMemcpy(d_data, h_data, size, cudaMemcpyHostToDevice);

     memset(h_data,,size);

     launchConfig(d_data, count, automaticLaunchConfig);

     cudaMemcpy(h_data, d_data, size, cudaMemcpyDeviceToHost);

     for (int i = ; i < count; i += )

     {

         if (h_data[i] != i * i)

         {

             printf("\n\tError at %d, d_data = %d\n", i, h_data[i]);

             return ;

         }

     }             

     free(h_data);

     cudaFree(d_data);

     return ;

 }

 int main()

 {

     int status;

     printf("\n\tStart.\n");

     printf("\n\tManual configuration test, BlockSize = %d\n", manualBlockSize);

     if (test(false))

     {

         printf("\n\tTest failed\n");

         return -;

     }

     printf("\n\tAutomatic configuration\n");

     if (test(true))

     {

         printf("\n\tTest failed\n");

         return -;

     }        

     printf("\n\tTest PASSED\n");

     getchar();

     return ;

 }

▶ 输出结果

    Start.

    Manual configuration test, BlockSize = 

    Elapsed time: 0.13 ms

    Potential occupancy: 50.00 %

    Automatic configuration

    Suggested block size: , minimum grid size for maximum occupancy: 

    Elapsed time: 0.12 ms

    Potential occupancy: 100.00 %

    Test PASSED

▶ 涨姿势

● 用到的几个 runtime 函数及其相互关系。

 // driver_types.h

 // 用于优化线程块尺寸的函数中的标志

 #define cudaOccupancyDefault                0x00  // 默认标志

 #define cudaOccupancyDisableCachingOverride 0x01  // 开启全局缓存，且不能被禁用

 // cuda_device_runtime_api.h

 // 与 cuda_runtime.h 中同名的函数，貌似没有用到？

 __device__ __NV_WEAK__ cudaError_t CUDARTAPI cudaOccupancyMaxActiveBlocksPerMultiprocessor(int *numBlocks, const void *func, int blockSize, size_t dynamicSmemSize)

 {

     return cudaErrorUnknown;

 }

 // 被函数 cudaOccupancyMaxActiveBlocksPerMultiprocessor 和函数 cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags 调用的

 __device__ __NV_WEAK__ cudaError_t CUDARTAPI cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags(int *numBlocks, const void *func, int blockSize, size_t dynamicSmemSize, unsigned int flags)

 {

     return cudaErrorUnknown;

 }

 // cuda_runtime.h

 template<class T>

 static __inline__ __host__ cudaError_t cudaOccupancyMaxActiveBlocksPerMultiprocessor(int* numBlocks, T func, int blockSize, size_t dynamicSMemSize)

 {

     return ::cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags(numBlocks, (const void*)func, blockSize, dynamicSMemSize, cudaOccupancyDefault);

 }

 template<typename UnaryFunction, class T>

 static __inline__ __host__ CUDART_DEVICE cudaError_t cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

 (

     int* minGridSize, int* blockSize, T func, UnaryFunction blockSizeToDynamicSMemSize, int blockSizeLimit = , unsigned int flags =

 )

 {

     cudaError_t status;

     // 设备和函数属性

     int                       device;

     struct cudaFuncAttributes attr;

     int maxThreadsPerMultiProcessor;

     int warpSize;

     int devMaxThreadsPerBlock;

     int multiProcessorCount;

     int occupancyLimit;

     int granularity;

     // 记录最大值

     int maxBlockSize = ;

     int numBlocks = ;

     int maxOccupancy = ;

     // 临时变量

     int blockSizeToTryAligned;

     int blockSizeToTry;

     int occupancyInBlocks;

     int occupancyInThreads;

     size_t dynamicSMemSize;

     // 检查输入

     if (!minGridSize || !blockSize || !func)

         return cudaErrorInvalidValue;

     //获取设备和核函数属性

     status = ::cudaGetDevice(&device);

     if (status != cudaSuccess)

         return status;

     status = cudaDeviceGetAttribute(&maxThreadsPerMultiProcessor, cudaDevAttrMaxThreadsPerMultiProcessor, device);

     if (status != cudaSuccess)

         return status;

     status = cudaDeviceGetAttribute(&warpSize,cudaDevAttrWarpSize,device);

     if (status != cudaSuccess)

         return status;

     status = cudaDeviceGetAttribute(&devMaxThreadsPerBlock,cudaDevAttrMaxThreadsPerBlock,device);

     if (status != cudaSuccess)

         return status;

     status = cudaDeviceGetAttribute(&multiProcessorCount,cudaDevAttrMultiProcessorCount,device);

     if (status != cudaSuccess)

         return status;

     status = cudaFuncGetAttributes(&attr, func);

     if (status != cudaSuccess)

         return status;

     //尝试线程块尺寸

     occupancyLimit = maxThreadsPerMultiProcessor;

     granularity = warpSize;

     if (blockSizeLimit ==  || blockSizeLimit > devMaxThreadsPerBlock)

         blockSizeLimit = devMaxThreadsPerBlock;

     if (blockSizeLimit > attr.maxThreadsPerBlock)

         blockSizeLimit = attr.maxThreadsPerBlock;

     for (blockSizeToTryAligned = ((blockSizeLimit + (warpSize - )) / warpSize) * warpSize; blockSizeToTryAligned > ; blockSizeToTryAligned -= warpSize)

         // blockSizeLimit 向上对齐到 warpSize 的整数倍，并尝试以 warpSize 为单位向下减少

         // 如果一开始 blockSizeLimit 就比 blockSizeToTryAligned 小，则从 blockSizeLimit 开始尝试（这时只用迭代一次）

     {

         blockSizeToTry = (blockSizeLimit < blockSizeToTryAligned) ? blockSizeLimit : blockSizeToTryAligned;

         dynamicSMemSize = blockSizeToDynamicSMemSize(blockSizeToTry);

         // 计算占用率的核心

         status = cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags(&occupancyInBlocks, func, blockSizeToTry, dynamicSMemSize, flags);

         if (status != cudaSuccess)

             return status;

         // 记录有效结果

         if ((occupancyInThreads = blockSizeToTry * occupancyInBlocks) > maxOccupancy)

         {

             maxBlockSize = blockSizeToTry;

             numBlocks = occupancyInBlocks;

             maxOccupancy = occupancyInThreads;

         }

         // 已经达到了占用率 100%，退出

         if (occupancyLimit == maxOccupancy)

             break;

     }

     // 返回最优结果

     *minGridSize = numBlocks * multiProcessorCount;

     *blockSize = maxBlockSize;

     return status;

 }

 class __cudaOccupancyB2DHelper

 {

     size_t n;

     public:

         inline __host__ CUDART_DEVICE __cudaOccupancyB2DHelper(size_t n_) : n(n_) {}

         inline __host__ CUDART_DEVICE size_t operator()(int)

         {

             return n;

         }

 };

 // 优化线程块尺寸的 runtime 函数

 // 参数：输出最小线程格尺寸 minGridSize，输出线程块尺寸 blockSize，内核 func，动态共享内存大小 dynamicSMemSize，总线程数 blockSizeLimit

 template<class T>

 static __inline__ __host__ CUDART_DEVICE cudaError_t cudaOccupancyMaxPotentialBlockSize

 (

     int *minGridSize, int *blockSize, T func, size_t dynamicSMemSize = , int blockSizeLimit =

 )

 {

     return cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags(minGridSize, blockSize, func, __cudaOccupancyB2DHelper(dynamicSMemSize), blockSizeLimit, cudaOccupancyDefault);

 }

0_Simple__simpleOccupancy的更多相关文章

随机推荐

使用Visual Studio Code开发Asp.Net Core WebApi学习笔记（三）-- Logger
本篇是在上一篇的基础上添加日志功能,并记录NLog在Asp.Net Core里的使用方法. 第一部分:默认Logger支持一.project.json添加日志包引用,并在cmd窗口使用 dotnet ...
WIFI_仿手机写wifi应用程序_WDS
2-1.1_15节_使用WIFI网卡6_仿手机写wifi操作程序============================== 1. 仿手机写一个WIFI操作程序,作为STA,有这几个功能:a. 自动扫 ...
admin.ModelAdmin 后台管理关联对象，某个字段怎么显示值
admin.ModelAdmin 后台管理关联对象,某个字段如何显示值?对象 WxpAccount: accountName = ... 对象 AccountMenu: ...
jquery操作select大全详解
每一次操作select的时候,总是要出来翻一下资料,不如自己总结一下,以后就翻这里了. 比如<select class="selector"></select&g ...
windows server 2008 修改域的密码策略
1.一般情况下,进入本地安全策略修改密码策略时,,密码策略已经被锁定,无法更改,若要修改域服务器上的密码策略,请按照步骤2--6进行修改 2.在此情况下要改密码策略的过程如下, 进入组策略管理: 3. ...
Openwrt 3G模块的添加
一. 在menuconfig中添加相关驱动 1. Kernel Modules -> USB Support <*> kmod-usb2 <*> kmod-usb-ohc ...
Openwrt TTL线刷
1.接通串口,网线: 2.打开串口软件SecureCRT: 3.按复位键,不断地出现信息: 4.2秒内按任意键停下来,出现uboot> 5.输入httpd 6.打开网页,输入ip 7.开始更新, ...
opencv中的缩放函数
图像处理里面缩放操作是比较常见的: 最近邻插值:类似简单映射的处理方式,目标图像w1,h1,原始图像w0,h0,则在目标图像上的点(x,y)的像素点实际对应原始图上(x*w0/w1,y*h0/h1)的 ...
MySQL的结构图
MySQL的结构图为了更好的了解和配置MySQL,就必须先了解一下MySQL的体系结构.如下图所示: ▲MySQL体系架构图理解MySQL的体系架构对于成功的配置和调试至关重要.以下将对架构图进行 ...
linux 异步信号的同步处理方式
关于代码的可重入性,设计开发人员一般只考虑到线程安全,异步信号处理函数的安全却往往被忽略.本文首先介绍如何编写安全的异步信号处理函数:然后举例说明在多线程应用中如何构建模型让异步信号在指定的线程中以同 ...

0_Simple__simpleOccupancy

0_Simple__simpleOccupancy的更多相关文章

随机推荐

热门专题