OpenCL如何获取最小线程并行粒度

由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是，其对设备特征查询的项更上层，而没有提供一些更为底层的特征查询。比如，你用OpenCL的设备查询API只能获取最大work group size，但无法获取到最小线程并行粒度。

但是，由于最小线程并行粒度对于OpenCL应用领域最广的GPU而言确实是一个比较重要的参数。如果你的work group的work item的个数是最小线程并行粒度的倍数，那么你的OpenCL kernel程序往往会达到很高的计算效率，同时也能基于这个模型来做一些Memory Bank Confliction的避免措施。因此，我这里提供了一个比较简单的OpenCL kernel来获取当前GPU或其它处理器的最小线程并行粒度。

我们知道，一个计算设备由若干个Compute Unit构i成，而一个Compute Unit中包含了多个Processing Element，一个Compute Unit中的所有Processing Element对于一条算术逻辑指令而言是同时进行操作的。而不同的Compute Unit之间也可以是同时进行操作。因此，GPU的并行可以划分为两个层次——一层是Compute Unit内的所有Processing Element的并行操作；另一层是各个Compute Unit的并行操作。

上面是物理层面，如果对于OpenCL逻辑层面，我们可以认为，一个work group的最大work item个数是指一个compute unit最多能调度、分配的线程数。这个数值一般就是一个CU内所包含的PE的个数的倍数。比如，如果一个GPU有2个CU，每个CU含有8个PE，而Max work group size是512，那么说明一个CU至少可以分配供512个线程并发操作所需要的各种资源。由于一个GPU根据一条算术逻辑指令能对所有PE发射若干次作为一个“原子的”发射操作，因此，这一个对程序员而言作为“原子的”发射操作启动了多少个线程，那么我们就可以认为是该GPU的最小并行线程数。如果一款GPU的最小线程并行数是32，那么该GPU将以32个线程作为一组原子的线程组。这意味着，如果遇到分支，那么一组32个线程组中的所有线程都将介入这个分支，对于不满足条件的线程，则会等到这32个线程中其它线程都完成分支处理之后再一起执行下面的指令。

如果我将work group size指定为64，并且在kernel程序里加一个判断，如果pid小于32做操作A，否则做操作B，那么pid为0~31的线程组会执行操作A，而pid为32到63的线程组不会受到阻塞，而会立马执行操作B。此时，两组线程将并发操作（注意，这里是并发，而不是并行。因为上面讲过，GPU一次发射32个线程的话，那么对于多个32线程组将会调度发射指令）。

根据这个特性，我们就可以写一个OpenCL kernel程序来判别当前GPU的最小并行线程粒度。

我们首先会将work group size定为最大能接受的尺寸。然后，我们将这个work group平均划分为两组，对它们进行测试。我们在中间定义了一个local memory的变量，每个线程都能访问它，不过我们只让pid为0以及pid为[max_work_group_size / 2]的线程去访问它，以不受太多干扰。如果这个标志在线程组0执行时被线程组1改变，那么我们就知道这个粒度并非是最小的，然后对前一组再平均划分为2，递归操作。如果在执行线程组0之后标志没有被更改，那么说明这整个线程组是一个原子的线程组，也就是我们所要的最小并行的线程粒度。

在内核程序中，我们还传了一个用于延迟的循环次数，使得非原子的线程组能够被并发执行。

下面的程序的执行环境为：Windows 7 32-bit Home Edition AMD-APU A6-3420M Visual Studio 2013 Express Edition AMD APP SDK

下面先贴主机端的部分代码片断：

/*Step 3: Create context.*/

        cl_context context = nullptr;       // OpenCL context

        cl_command_queue commandQueue = nullptr;

        cl_program program = nullptr;       // OpenCL kernel program object that'll be running on the compute device

        cl_mem outputMemObj = nullptr;      // output memory object for output

        cl_kernel kernel = nullptr;         // kernel object

        const int deviceIndex = ;

        context = clCreateContext(NULL,, &devices[deviceIndex],NULL,NULL,NULL);

        /*Step 4: Creating command queue associate with the context.*/

        commandQueue = clCreateCommandQueue(context, devices[deviceIndex], , NULL);

        /*Step 5: Create program object */

        // Read the kernel code to the buffer

        FILE *fp = fopen("cl_kernel.cl", "rb");

        if(fp == nullptr)

        {

            puts("The kernel file not found!");

            goto RELEASE_RESOURCES;

        }

        fseek(fp, , SEEK_END);

        size_t kernelLength = ftell(fp);

        fseek(fp, , SEEK_SET);

        char *kernelCodeBuffer = (char*)malloc(kernelLength + );

        fread(kernelCodeBuffer, , kernelLength, fp);

        kernelCodeBuffer[kernelLength] = '\0';

        fclose(fp);

        const char *aSource = kernelCodeBuffer;

        program = clCreateProgramWithSource(context, , &aSource, &kernelLength, NULL);

        /*Step 6: Build program. */

        status = clBuildProgram(program, , &devices[deviceIndex], NULL, NULL, NULL);

        /*Step 7: Initial inputs and output for the host and create memory objects for the kernel*/

        cl_int outputArg = ;

        outputMemObj = clCreateBuffer(context, CL_MEM_WRITE_ONLY, sizeof(outputArg), NULL, NULL);

        /*Step 8: Create kernel object */

        kernel = clCreateKernel(program,"QueryMinimumGranularity", NULL);

        /*Step 9: Sets Kernel arguments.*/

        cl_int inputArg = ;

        status = clSetKernelArg(kernel, , sizeof(inputArg), &inputArg);

        status = clSetKernelArg(kernel, , sizeof(outputMemObj), &outputMemObj);

        /*Step 10: Running the kernel.*/

        size_t groupSize;

        clGetDeviceInfo(devices[deviceIndex], CL_DEVICE_MAX_WORK_GROUP_SIZE, sizeof(groupSize), &groupSize, NULL);

        size_t global_work_size[] = { groupSize };

        size_t local_work_size[] = { groupSize };

        status = clEnqueueNDRangeKernel(commandQueue, kernel, , NULL, global_work_size, local_work_size, , NULL, NULL);

        clFinish(commandQueue);     // Force wait until the OpenCL kernel is completed

        /*Step 11: Read the cout put back to host memory.*/

        status = clEnqueueReadBuffer(commandQueue, outputMemObj, CL_TRUE, , sizeof(outputArg), &outputArg, , NULL, NULL);

        char chBuffer[];

        wchar_t wsBuffer[];

        sprintf(chBuffer, "The minimum granularity is: %d", outputArg);

        MBString2WCString(wsBuffer, chBuffer, false);

        MessageBox(hWnd, wsBuffer, L"Notice", MB_OK);

下面是kernel代码：

__kernel void QueryMinimumGranularity(int nLoop, __global int *pOut)

{

    __local volatile int flag;

    int index = get_global_id();

    int totalItems = get_global_size();

    do

    {

        int halfIndex = totalItems / ;

        if(index == )

            flag = ;

        barrier(CLK_LOCAL_MEM_FENCE);

        if(index < halfIndex)

        {

            for(int i = ; i < nLoop; i++)

            {

                if(flag == -)

                    break;

            }

            if(flag != -)

            {

                if(index == )

                {

                    *pOut = totalItems;

                    flag = ;

                }

            }

        }

        else

        {

            if(index == halfIndex)

            {

                if(flag != )

                {

                    //while(flag != 1);

                    flag = -;

                }

            }

        }

        barrier(CLK_LOCAL_MEM_FENCE);

        if(flag == )

            break;

        totalItems /= ;

    }

    while(totalItems > );

}

对于Windows 7小如何做基于AMD APU的OpenCL的开发，可以参考这个贴：

http://www.cnblogs.com/zenny-chen/archive/2013/06/14/3136158.html

OpenCL如何获取最小线程并行粒度的更多相关文章

C#线程并行线程
第五部分并行线程在本节中,我们将介绍Framework 4.0新增的利用多核处理器的多线程API: 并行LINQ或PLINQ Parallel 类任务并行性构造并发集合自旋锁和自旋等待 ...
多线程外排序解决大数据排序问题2(最小堆并行k路归并)
转自:AIfred 事实证明外排序的效率主要依赖于磁盘,归并阶段采用K路归并可以显著减少IO量,最小堆并行k路归并,效率倍增. 二路归并的思路会导致非常多冗余的磁盘访问,两组两组合并确定的是当前的相对 ...
WPF线程获取UI线程
WPF中只能是UI线程才可以改变UI控件相关,当采用多线程工作时,可用以下代码获取 UI线程进行操作: App.Current.Dispatcher.Invoke((Action)delegate() ...
[Python]获取子线程异常信息
起因今天在写东西的时候,用到了多线程.遇到了个问题: 子线程的异常,在父线程中无法捕获. 解决问题代码问题代码示例代码如下: import threading class SampleThrea ...
Java 获取当前线程、进程、服务器ip
/** * 获取当前线程id */ private Long getThreadId() { try { return Thread.currentThread().getId(); } catch ...
通过设置线程池的最小线程数来提高task的效率，SetMinThreads。
http://www.cnblogs.com/Charltsing/p/taskpoolthread.html task默认对线程的调度是逐步增加的,连续多次运行并发线程,会提高占用的线程数,而等若干 ...
获取其他线程的数据用 queue, 多进程Q
获取其他线程的数据用 queue, 多进程Q
《GPU高性能编程CUDA实战》第五章线程并行
▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...
利用进程ID获取主线程ID
利用进程ID获取主线程ID,仅适用于单线程.多线程应区分哪个是主线程,区分方法待验证 (1)好像可以用StartTime最早的,不过通过线程执行时间不一定可靠,要是在最开始就CreateThread了 ...

随机推荐

VTORRAAYY ws+tls+nginx config
# nginx conf partal location /haha { proxy_redirect off; # the prot should same with config v2*** pr ...
Go测试开发就用这三板斧
一个古老的面试问题:“给你个XX,你怎么测试?” 时间穿越到9102,Go语言成为了新生代的代名词.老问题变成了“给你Golang程序,你怎么测试?” 看完本文后,读者可以拍着胸脯回答,“一共 ...
Mysql导入Excel数据日期问题（Excel 与 MySQL 时间戳格式和日期互转）
https://blog.csdn.net/ghw455954461/article/details/7247738 今天项目表中需要导入好几w条数据 ,但日期由两个一个是标准时间一个为时间戳,程序中 ...
jquery.table2excel，将HTML的table标签数据导出成excel
<!DOCTYPE> <html> <head> <meta http-equiv="Content-Type" content=&quo ...
ActiveMQ初步安装使用(一)
ActiveMQ 的官网 : http://activemq.apache.org ActiveMQ 扩展出: API 接受发送 MQ 的高可用 MQ 的集群容错配置 MQ 的持久化延时发送签收机 ...
【bzoj2141】排队 [国家集训队2011]排队（树套树）
题目描述排排坐,吃果果,生果甜嗦嗦,大家笑呵呵.你一个,我一个,大的分给你,小的留给我,吃完果果唱支歌,大家乐和和. 红星幼儿园的小朋友们排起了长长地队伍,准备吃果果.不过因为小朋友们的身高有所区别 ...
3、docker常用命令：help、镜像命令、容器命令
1.帮助命令 1.docker version 2.docker info 3.重点掌握:docker --help 2.镜像命令 1.docker,镜像,容器关系 2.docker images ( ...
PHP mysqli_get_host_info() 函数
定义和用法 mysqli_get_host_info() 函数返回 MySQL 服务器主机名和连接类型. 语法 mysqli_get_host_info(connection); 返回 MySQL 服 ...
.net上传大文件的解决方案
ASP.NET上传文件用FileUpLoad就可以,但是对文件夹的操作却不能用FileUpLoad来实现. 下面这个示例便是使用ASP.NET来实现上传文件夹并对文件夹进行压缩以及解压. ASP.NE ...
51 Nod 1191消灭兔子
1191 消灭兔子 1 秒 131,072 KB 40 分 4 级题有N只兔子,每只有一个血量B[i],需要用箭杀死免子.有M种不同类型的箭可以选择,每种箭对兔子的伤害值分别为D[i],价格为P[i ...

OpenCL如何获取最小线程并行粒度

OpenCL如何获取最小线程并行粒度的更多相关文章

随机推荐

热门专题