由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是,其对设备特征查询的项更上层,而没有提供一些更为底层的特征查询。比如,你用OpenCL的设备查询API只能获取最大work group size,但无法获取到最小线程并行粒度。

但是,由于最小线程并行粒度对于OpenCL应用领域最广的GPU而言确实是一个比较重要的参数。如果你的work group的work item的个数是最小线程并行粒度的倍数,那么你的OpenCL kernel程序往往会达到很高的计算效率,同时也能基于这个模型来做一些Memory Bank Confliction的避免措施。因此,我这里提供了一个比较简单的OpenCL kernel来获取当前GPU或其它处理器的最小线程并行粒度。

我们知道,一个计算设备由若干个Compute Unit构i成,而一个Compute Unit中包含了多个Processing Element,一个Compute Unit中的所有Processing Element对于一条算术逻辑指令而言是同时进行操作的。而不同的Compute Unit之间也可以是同时进行操作。因此,GPU的并行可以划分为两个层次——一层是Compute Unit内的所有Processing Element的并行操作;另一层是各个Compute Unit的并行操作。

上面是物理层面,如果对于OpenCL逻辑层面,我们可以认为,一个work group的最大work item个数是指一个compute unit最多能调度、分配的线程数。这个数值一般就是一个CU内所包含的PE的个数的倍数。比如,如果一个GPU有2个CU,每个CU含有8个PE,而Max work group size是512,那么说明一个CU至少可以分配供512个线程并发操作所需要的各种资源。由于一个GPU根据一条算术逻辑指令能对所有PE发射若干次作为一个“原子的”发射操作,因此,这一个对程序员而言作为“原子的”发射操作启动了多少个线程,那么我们就可以认为是该GPU的最小并行线程数。如果一款GPU的最小线程并行数是32,那么该GPU将以32个线程作为一组原子的线程组。这意味着,如果遇到分支,那么一组32个线程组中的所有线程都将介入这个分支,对于不满足条件的线程,则会等到这32个线程中其它线程都完成分支处理之后再一起执行下面的指令。

如果我将work group size指定为64,并且在kernel程序里加一个判断,如果pid小于32做操作A,否则做操作B,那么pid为0~31的线程组会执行操作A,而pid为32到63的线程组不会受到阻塞,而会立马执行操作B。此时,两组线程将并发操作(注意,这里是并发,而不是并行。因为上面讲过,GPU一次发射32个线程的话,那么对于多个32线程组将会调度发射指令)。

根据这个特性,我们就可以写一个OpenCL kernel程序来判别当前GPU的最小并行线程粒度。

我们首先会将work group size定为最大能接受的尺寸。然后,我们将这个work group平均划分为两组,对它们进行测试。我们在中间定义了一个local memory的变量,每个线程都能访问它,不过我们只让pid为0以及pid为[max_work_group_size / 2]的线程去访问它,以不受太多干扰。如果这个标志在线程组0执行时被线程组1改变,那么我们就知道这个粒度并非是最小的,然后对前一组再平均划分为2,递归操作。如果在执行线程组0之后标志没有被更改,那么说明这整个线程组是一个原子的线程组,也就是我们所要的最小并行的线程粒度。

在内核程序中,我们还传了一个用于延迟的循环次数,使得非原子的线程组能够被并发执行。

下面的程序的执行环境为:Windows 7 32-bit Home Edition    AMD-APU A6-3420M    Visual Studio 2013 Express Edition    AMD APP SDK

下面先贴主机端的部分代码片断:

/*Step 3: Create context.*/
cl_context context = nullptr; // OpenCL context
cl_command_queue commandQueue = nullptr;
cl_program program = nullptr; // OpenCL kernel program object that'll be running on the compute device
cl_mem outputMemObj = nullptr; // output memory object for output
cl_kernel kernel = nullptr; // kernel object
const int deviceIndex = ; context = clCreateContext(NULL,, &devices[deviceIndex],NULL,NULL,NULL); /*Step 4: Creating command queue associate with the context.*/
commandQueue = clCreateCommandQueue(context, devices[deviceIndex], , NULL); /*Step 5: Create program object */
// Read the kernel code to the buffer
FILE *fp = fopen("cl_kernel.cl", "rb");
if(fp == nullptr)
{
puts("The kernel file not found!");
goto RELEASE_RESOURCES;
}
fseek(fp, , SEEK_END);
size_t kernelLength = ftell(fp);
fseek(fp, , SEEK_SET);
char *kernelCodeBuffer = (char*)malloc(kernelLength + );
fread(kernelCodeBuffer, , kernelLength, fp);
kernelCodeBuffer[kernelLength] = '\0';
fclose(fp); const char *aSource = kernelCodeBuffer;
program = clCreateProgramWithSource(context, , &aSource, &kernelLength, NULL); /*Step 6: Build program. */
status = clBuildProgram(program, , &devices[deviceIndex], NULL, NULL, NULL); /*Step 7: Initial inputs and output for the host and create memory objects for the kernel*/
cl_int outputArg = ;
outputMemObj = clCreateBuffer(context, CL_MEM_WRITE_ONLY, sizeof(outputArg), NULL, NULL); /*Step 8: Create kernel object */
kernel = clCreateKernel(program,"QueryMinimumGranularity", NULL); /*Step 9: Sets Kernel arguments.*/
cl_int inputArg = ;
status = clSetKernelArg(kernel, , sizeof(inputArg), &inputArg);
status = clSetKernelArg(kernel, , sizeof(outputMemObj), &outputMemObj); /*Step 10: Running the kernel.*/
size_t groupSize;
clGetDeviceInfo(devices[deviceIndex], CL_DEVICE_MAX_WORK_GROUP_SIZE, sizeof(groupSize), &groupSize, NULL);
size_t global_work_size[] = { groupSize };
size_t local_work_size[] = { groupSize };
status = clEnqueueNDRangeKernel(commandQueue, kernel, , NULL, global_work_size, local_work_size, , NULL, NULL);
clFinish(commandQueue); // Force wait until the OpenCL kernel is completed /*Step 11: Read the cout put back to host memory.*/
status = clEnqueueReadBuffer(commandQueue, outputMemObj, CL_TRUE, , sizeof(outputArg), &outputArg, , NULL, NULL);
char chBuffer[];
wchar_t wsBuffer[];
sprintf(chBuffer, "The minimum granularity is: %d", outputArg);
MBString2WCString(wsBuffer, chBuffer, false);
MessageBox(hWnd, wsBuffer, L"Notice", MB_OK);

下面是kernel代码:

__kernel void QueryMinimumGranularity(int nLoop, __global int *pOut)
{
__local volatile int flag; int index = get_global_id();
int totalItems = get_global_size(); do
{
int halfIndex = totalItems / ;
if(index == )
flag = ; barrier(CLK_LOCAL_MEM_FENCE); if(index < halfIndex)
{
for(int i = ; i < nLoop; i++)
{
if(flag == -)
break;
}
if(flag != -)
{
if(index == )
{
*pOut = totalItems;
flag = ;
}
}
}
else
{
if(index == halfIndex)
{
if(flag != )
{
//while(flag != 1);
flag = -;
}
}
} barrier(CLK_LOCAL_MEM_FENCE); if(flag == )
break; totalItems /= ;
}
while(totalItems > );
}

对于Windows 7小如何做基于AMD APU的OpenCL的开发,可以参考这个贴:

http://www.cnblogs.com/zenny-chen/archive/2013/06/14/3136158.html

OpenCL如何获取最小线程并行粒度的更多相关文章

  1. C#线程 并行线程

    第五部分 并行线程   在本节中,我们将介绍Framework 4.0新增的利用多核处理器的多线程API: 并行LINQ或PLINQ Parallel 类 任务并行性构造 并发集合 自旋锁和自旋等待 ...

  2. 多线程外排序解决大数据排序问题2(最小堆并行k路归并)

    转自:AIfred 事实证明外排序的效率主要依赖于磁盘,归并阶段采用K路归并可以显著减少IO量,最小堆并行k路归并,效率倍增. 二路归并的思路会导致非常多冗余的磁盘访问,两组两组合并确定的是当前的相对 ...

  3. WPF线程获取UI线程

    WPF中只能是UI线程才可以改变UI控件相关,当采用多线程工作时,可用以下代码获取 UI线程进行操作: App.Current.Dispatcher.Invoke((Action)delegate() ...

  4. [Python]获取子线程异常信息

    起因 今天在写东西的时候,用到了多线程.遇到了个问题: 子线程的异常,在父线程中无法捕获. 解决 问题代码 问题代码示例代码如下: import threading class SampleThrea ...

  5. Java 获取当前线程、进程、服务器ip

    /** * 获取当前线程id */ private Long getThreadId() { try { return Thread.currentThread().getId(); } catch ...

  6. 通过设置线程池的最小线程数来提高task的效率,SetMinThreads。

    http://www.cnblogs.com/Charltsing/p/taskpoolthread.html task默认对线程的调度是逐步增加的,连续多次运行并发线程,会提高占用的线程数,而等若干 ...

  7. 获取其他线程的数据用 queue, 多进程Q

    获取其他线程的数据用 queue, 多进程Q

  8. 《GPU高性能编程CUDA实战》第五章 线程并行

    ▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...

  9. 利用进程ID获取主线程ID

    利用进程ID获取主线程ID,仅适用于单线程.多线程应区分哪个是主线程,区分方法待验证 (1)好像可以用StartTime最早的,不过通过线程执行时间不一定可靠,要是在最开始就CreateThread了 ...

随机推荐

  1. zabbix环境mysql分区表管理历史数据_python实现

    zabbix添加数据库表partition zabbix系统自身有housekeeper进程来清除超过保留时间的数据,但是数据量上来之后就会比较影响性能,因此可以使用mysql的表分区来解决这个问题, ...

  2. 01_日志采集框架Flume简介及其运行机制

    离线辅助系统概览: 1.概述: 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出. 任务调度等不可或缺的辅助系统,而这些辅助 ...

  3. linux 设备驱动与应用程序异步通知

    一.异步通知机制简介 异步通知机制的意思:一旦设备准备就绪,可以主动的通知应用程序进行相应的操作,从而使得应用程序不必去查询设备的状态. 异步通知比较准确的称谓是"信号驱动的异步IO&quo ...

  4. vue-element-admin跟springboot+shiro部署爬坑记

    今天把前端采用vue-element-admin与springboot的项目部署到正是线上,在开发线上很OK的,一放上去我的天啊,坑是真的多阿.下面听我一一道来:我这边采用的是nginx服务器部署. ...

  5. MySQL中DATA类型数据和DATATIME类型数据的比较

    在网上大题查了下这个问题,网上有的人说可以直接比较,并给出了测试用例,也有的人说不能比较,于是我自己尝试了一下,实际测试是可以的,不过,当传入DATA类型时间与DATATIME类型时间进行比较的时候, ...

  6. Git 分支开发规范

    您必须知道的 Git 分支开发规范 Git 是目前最流行的源代码管理工具. 为规范开发,保持代码提交记录以及 git 分支结构清晰,方便后续维护,现规范 git 的相关操作. 分支管理 分支命名 ma ...

  7. MyBatis-12-动态SQL

    12.动态SQL 什么事动态SQL:动态SQL就是指根据不同的条件生成不同的SQL语句 利用动态SQL这一特性可以彻底摆脱这种痛苦 动态 SQL 元素和 JSTL 或基于类似 XML 的文本处理器相似 ...

  8. ELK架构图示例

    这是最简单的一种ELK架构方式.优点是搭建简单,易于上手.缺点是Logstash耗资源较大,运行占用CPU和内存高.另外没有消息队列缓存,存在数据丢失隐患. 此架构由Logstash分布于各个节点上搜 ...

  9. 《Redis 设计与实现》读书笔记(三)

    多机数据库实现 十五 .复制 从服务器通过命令 slaveof 127.0.0.1 6000 成为主服务器的从服务器.然后执行复制操作,保持自己的状态和主服务器一样 1.理论 同步 成为从服务器后的同 ...

  10. Wind Simulation in 'God of War'(GDC2019 战神4风力场模拟)

    Wind Simulation in 'God of War'(GDC2019) 战神4中的风力场模拟 这次带来的分享的主题是,圣莫妮卡工作室他们在战神4中关于GPU模拟风力场. 演讲者Rupert ...