Opencl API解释（一）

首先注明：我用的AMD的opencl，它有很多sample代码，结合代码来解释这些API

Opencl 常用的API 汇总总结：

信息查询函数

cl_int clGetDeviceInfo(cl_device_id device,

cl_device_info param_name,

size_t param_value_size,

void * param_value,

size_t *param_value_size_ret )

参数说明

此函数用来查询OpenCL设备信息。首先介绍其参数：
第一个参数device是clGetDeviceIDs的返回值。
第二个参数param_name是一个枚举常量，标识要查询的设备信息，具体有哪些信息稍后详述。
第三个参数param_value_size声明下一个参数param_value所指向的存储空间的字节大小。这个大小要>=查询参数大小。
第四个参数param_value指向要查询参数返回到的存储空间的地址。NULL时表示忽略。
第五个参数返回查询到的参数的实际的大小。设为NULL则忽略。
下面我们来具体介绍一下可以查询的几个常用参数。
CL_DEVICE_TYPE:OpenCL设备类型。目前支持CL_DEVICE_TYPE_CPU,CL_DEVICE_TYPE_GPU, CL_DEVICE_TYPE_ACCELERATOR, CL_DEVICE_TYPE_DEFAULT或以上联合。
CL_DEVICE_VENDOR_ID:一个唯一的供应商识别码。一个唯一设备识别码的例子，PCIe ID。
CL_DEVICE_MAX_COMPUTE_UNITS:OpenCL设备上并行计算单元数目。一个work-group只在一个compute unit上执行。该参数最小为1.
CL_DEVICE_MAX_WORK_ITEM_DEMENSIONS:数据并行执行模块用来声明global和localwork-item IDS的最大维度。该参数最小为3。参考clEnqueueNDRangeKernel，该函数第三个参数work_dim是声明global work-item和work-group中的work-items（specify the global work-items and work items in the work-group.）中使用的维度的数目。work-item应该比0大，且<=CL_DEVICE_MAX_WORK_ITEM_DIMENSIONS.
CL_DEVICE_MAX_WORK_ITEM_SIZES:数组类型，指能被在work-group的每一个维度声明的work-item的最大数目。最小值（1,1,1）。
CL_DEVICE_MAX_WORK_GROUP_SIZE:在一个computeunit中执行一个kernel的work-group中work-item的最大数目。最小值为1。Maximum number of work-items in a work-group executing a kernel ona single compute unit, using the data parallelexecution model. (Refer to clEnqueueNDRangeKernel ). The minimum value is1.

举例：

//Get max compute units
status = clGetDeviceInfo(
deviceId,
CL_DEVICE_MAX_COMPUTE_UNITS,
sizeof(cl_uint),
&maxComputeUnits,
NULL);
CHECK_OPENCL_ERROR(status, "clGetDeviceIDs(CL_DEVICE_MAX_COMPUTE_UNITS) failed");

2.
cl_int clGetKernelWorkGroupInfo(cl_kernelkernel ,
cl_device_iddevice ,
cl_kernel_work_group_info param_name,
size_t param_value_size,
void* param_value,
size_t*param_value_size_ret )

参数说明：

此函数返回指定到某一device上的kernel对象信息。同样，先来看参数：

第一个参数要查询的kernel对象。

第二个参数指定与kernel绑定的设备列表中的某一个设备。这个列表就是与kernel绑定的context对应的kernel列表。如果列表中只有一个device，此处device参数可以为NULL。

第三个参数指定要查询参数名称，这也是个枚举值。

第三个参数是要指定的要查询的参数返回的字节数，要>=返回值。

第四个参数指返回值指向内存空间的地址，若设为NULL则忽略。

第五个参数返回实际查询到的参数的大小。

下面来说几个重要的可查询的参数：

CL_KERNEL_WORK_GROUP_SIZE:查询在某一指定设备上执行一个kernel可以使用的最大work-group的size。OpenCL实现会使用资源，这就要求kernel确定work-group大小。

This provides a mechanism for the applicationto query the maximum work-group size that can be used to execute a kernel on aspecificdevice given by device. The OpenCL implementationuses the resource requirements of the kernel (register usage etc.) to determinewhat this work -group size should be.

举例：

status = clGetKernelWorkGroupInfo(kernel,
device,
CL_KERNEL_LOCAL_MEM_SIZE,
sizeof(cl_ulong),
&localMemoryUsed,
NULL);
if(checkVal(status, CL_SUCCESS, "clGetKernelWorkGroupInfo failed(CL_KERNEL_LOCAL_MEM_SIZE)"))
return SDK_FAILURE;

两个例子均来自SDKCommon.cpp.

work-group/work-item/size等关系说明

为执行一个数据并行kernel，除work-items的数目外也要指定work-groups的数目。这也就是为什么两个参数都必须传递给clEnqueueNDRangeKernel。例如：

size_t global_item_size = 4;//总的线程数

size_t local_item_size = 1;//每一个group的线程数

/* Execute OpenCL kernel as data parallel*/

ret = clEnqueueNDRangeKernel(command_queue,kernel, 1, NULL,

&global_item_size,&local_item_size, 0, NULL, NULL);

这个就表示上面这个数据并行计算的kernel中每一个work-group由1个work-item组成，而共有4个work-items要被处理，即总的work-items要被分成4个work-group。

另外work-item对应硬件上的一个PE（processing element）,而一个work-group对应硬件上的一个CU（computing unit）。这种对应可以理解为，一个work-item不能被拆分到多个PE上处理；同样，一个work-group也不能拆分到多个CU上同时处理（忘了哪里看到的信息）。当映射到OpenCL硬件模型上时，每一个work-item运行在一个被称为处理基元（processing element）的抽象硬件单元上，其中每个处理基元可以处理多个work-item(注：摘自《OpenCL异构计算》P87)。（如此而言，是不是说对于二维的globalx必须是localx的整数倍，globaly必须是localy的整数倍？那么如果我数据很大，work-item所能数量很多，如果一个group中中work-item的数量不超过CU中PE的个数，那么group的数量就可能很多；如果我想让group数量小点，那work-item的数目就会很多，还能不能处理了呢？以当前这个示例是能的，但是对于多的work-item,这涉及到如何确定work-item数目的问题。

　　结合Cuda的概念进行解释：因为实际上，一个 SM 可以允许的 block 数量，还要另外考虑到他所用到 SM 的资源：shared memory、registers 等。在 G80 中，每个 SM 有 16KB 的 shared memory 和 8192 个 register。而在同一个 SM 里的 block 和 thread，则要共享这些资源;如果资源不够多个 block 使用的话，那 CUDA 就会减少 Block 的量，来让资源够用。在这种情形下，也会因此让 SM 的 thread 数量变少，而不到最多的 768 个。

　　比如说如果一个 thread 要用到 16 个 register 的话(在 kernel 中宣告的变量)，那一个 SM 的 8192 个 register 实际上只能让 512 个 thread 来使用;而如果一个 thread 要用 32 个 register，那一个 SM 就只能有 256 个 thread 了～而 shared memory 由于是 thread block 共享的，因此变成是要看一个 block 要用多少的 shread memory、一个 SM 的 16KB 能分给多少个 block 了。

　　所以虽然说当一个 SM 里的 thread 越多时，越能隐藏 latency，但是也会让每个 thread 能使用的资源更少。因此，这点也就是在优化时要做取舍的了

继续向下解释work-group,work-item,size的关系：

每一个work-group中work-item的数目是不能改变的，始终如一。如果work-item的数目不能在work-groups中均分,clEnqueueNDRangeKernel失败，返回错误码CL_INVALID_WORK_GROUP_SIZE。此处要注意，自己在尝试检测GPU处理能力的时候给出的work-item和work-group的数目不能整除时不一定是数量超限，有可能只是不能整除。

global work-item ID、localwork-item ID，和work-group ID之间的关系如下图所示。

图1 work-group ID和work-item ID

表1 获取ID的函数

函数	返回值
get_group_id	Work-group ID
get_global_id	Global work-item ID
get_local_id	Local work-item ID

因为要处理2D图像或3D空间，work-items和work-groups可以被指定为2或3维。图2给出一个work-group和work-item被定义为2D的例子。

图2 work-group和work-item定义为2D

因为work-group和work-item可至3维，get_group_id(), get_global_id(), get_local_id()每一个的参数可以是0~2。

注意，空间维度指数和每个work-group中work-item的数目能够依据设备而变化。最大维度指数可以通过clGetDeviceInfo()来获取CL_DEVICE_MAX_WORK_ITEM_DIMENSIONS，每个work-group中work-items的最大值可以通过CL_DEVICE_MAX_WORK_ITEM_SIZES获取。前者是cl_uint型，后者是size_t的数组。

在kernel函数中，我们能够通过API调用得到global id以及其他信息：

get_global_id(dim)

get_global_size(dim)

这两个函数能得到每个维度上的global id。

get_group_id(dim)

get_num_groups(dim)

get_local_id(dim)

get_local_size(dim）

这几个函数用来计算group id以及在group内的local id。

get_global_id(0) = column, get_global_id(1) = row

get_num_groups(0) * get_local_size(0) == get_global_size(0)

CL_DEVICE_MAX_WORK_ITEM_SIZES，CL_DEVICE_MAX_WORK_GROUP_SIZE（clGetDeivceInfo获取)它跟CL_KERNEL_WORK_GROUP_SIZE（clGetKernelWorkGroupInfo获取）有什么区别？

CL_DEVICE_MAX_WORK_ITEM_SIZES ： Max work-items sizes in each dimensions，每一个维度允许的最大的work-item数

CL_DEVICE_MAX_WORK_GROUP_SIZE： Max allowed work-items in a group,一个workgroup所允许的最多work-item数。

CL_KERNEL_WORK_GROUP_SIZE： Group size returned by kernel 实际在kernel中执行的workgroup数目。

执行cinfo,可以检测硬件信息

Opencl API解释（一）的更多相关文章

Opencl API解释（二）
欢迎关注,转载引用请注明 http://blog.csdn.net/leonwei/article/details/8909897 这里将更深入的说明一些OpenCL API的功能 1. 创建buff ...
Backbone的RESTFUL API 解释
RESTFUL API 从服务器获取模型:collection.fetch();//发送GET请求地址为collection.url; 存取模型至服务器: model.save();//发送PUT请 ...
vue中部分api解释（$nextTick）
1:this.$nextTick(function(){ }) 传如的参数是一个函数这个API主要是获取dom元素为什么需要这个api,在vue框架开发中,更新dom是一个异步操作,如果更新完do ...
5分钟看懂svg path 路径的所有命令（更有API解释、有图、有图文对比解析）
友情提示:更多详情.每个命令的例子.参数变化对比图文详解,欢迎关注九十七度的博客:SVG<Path>命令详解 M = moveto M x y 移动到指定坐标,xy分别为x轴和y轴的坐标点 ...
通过 Autostereograms 案例学习 OpenGL 和 OpenCL 的互操作性
引言在过去的十年里, GPU (图形处理单元)已经从特殊硬件(特供)转变成能够在数值计算领域开辟新篇章的高性能计算机设备. 很多算法能够使用拥有巨大的处理能力的GPU来快速运行和处理大数据量.即使在 ...
Android 敏感 API 的说明
从中国的国情来看,Google 的诸多产品,包括 gmail,Android 官方市场 Google Play 正处于并将长期处于访问不了的状态.国内几亿网民也要生活,于是墙内出现了“百家争鸣”的场面 ...
iscrolljs 看API 回顾以前开发中失误
今天有空细致的看看iscrolljs api 发现自己以前的几个失误是没看api造成的失误1 页面a操作影响了页面b的滚动条 api 解释: options.bindToWrapper The ...
java一切乱码的解释以及源头【转】
工作中经常遇到java编码问题,由于缺乏研究,总是无法给出确切的答案,这个周末在网上查了一些资料,在此做些汇总. 问题一:在java中读取文件时应该采用什么编码? Java读取文件的方式总体可以分为两 ...
OpenCL中三种内存创建image的效率对比
第一种:使用ION: cl_mem_ion_host_ptr ion_host_ptr1; ion_host_ptr1.ext_host_ptr.allocation_type = CL_MEM_IO ...

随机推荐

java对象初始化顺序的简单验证
以下这段小程序对调用对象构造函数时,父类构造函数.成员变量初始化函数,以及非静态初始化块调用顺序进行验证,不考虑静态成员及静态初始化块. public class Derive extends Bas ...
thinkphp 整合 ucenter
http://xcodebox.com/2013/06/8855.html 参考 1 ucenter源码目录下 /advanced/examples/api目录 copy到thinkphp项目根目 ...
Ubuntu不卸载ibus前提下安装搜狗输入法
第一步在命令行中输入以下行命令安装fictx框架 sudo apt-get install fcitx fcitx-config-gtk im-switch 第二步去 http://pinyin. ...
织梦DedeCMS网站地图模板
亲和百度蜘蛛,分页多层次特色,织梦系统最好用的网站地图! 用 DedeCMS(织梦) 系统搭建的网站多数都是以优化为主要目标的网站类型,既然是优化站 SEO 手段就离不开为网站设置网站地图.可是 De ...
mysqli 扩展库的预处理技术（mysqli_stmt）
提出问题现在需要向mysql数据库中添加100个用户,请问如何实现? 方法一:for循环100次方法二:使用批量添加 $sqls="insert xxx"; $sqls.=&q ...
wamp介绍
Wamp介绍 Windows下的Apache+Mysql/MariaDB+Perl/PHP/Python,一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在 ...
crontab与环境变量
一个shell脚本,直接执行能成功,但是加在crontab后确怎么也执行不成功. 问题的原因是:crontab的环境变量与直接执行用户的环境变量不一样. export PATH=$PATH:/sbin ...
Laravel学习第一天（创建laravel项目、路由、视图、blade模板）
创建laravel项目 composer create-project laravel/laravel learnlv 4.1.* 查看帮助:composer create-project 使用 ...
java版正文抽取基于文字连接比
package cn.tdt.crawl.jdbc; import java.util.regex.Matcher; import java.util.regex.Pattern; import or ...
PHP错误Warning: Cannot modify header information - headers already sent by解决方法
这篇文章主要介绍了PHP错误Warning: Cannot modify header information - headers already sent by解决方法,需要的朋友可以参考下今天在 ...

Opencl API解释（一）

Opencl API解释（一）的更多相关文章

随机推荐

热门专题