一文说清OpenCL框架
背景
Read the fucking official documents!--By 鲁迅A picture is worth a thousand words.--By 高尔基
说明:
- 对不起,我竟然用了一个夺人眼球的标题;
- 我会尽量从一个程序员的角度来阐述
OpenCL,目标是浅显易懂,如果没有达到这个效果,就当我没说这话; - 子曾经曰过:不懂
Middleware的系统软件工程师,不是一个好码农;
1. 介绍

- OpenCL(Open Computing Language,开放计算语言):
从软件视角看,它是用于异构平台编程的框架;
从规范视角看,它是异构并行计算的行业标准,由Khronos Group来维护; - 异构平台包括了CPU、GPU、FPGA、DSP,以及最近几年流行的各类AI加速器等;
- OpenCL包含两部分:
1)用于编写运行在OpenCL device上的kernels的语言(基于C99);
2)OpenCL API,至于Runtime的实现交由各个厂家,比如Intel发布的opencl_runtime_16.1.2_x64_rh_6.4.0.37.tgz
以人工智能场景为例来理解一下,假如在某个AI芯片上跑人脸识别应用,CPU擅长控制,AI processor擅长计算,软件的flow就可以进行拆分,用CPU来负责控制视频流输入输出前后处理,AI processor来完成深度学习模型运算完成识别,这就是一个典型的异构处理场景,如果该AI芯片的SDK支持OpenCL,那么上层的软件就可以基于OpenCL进行开发了。
话不多说,看看OpenCL的架构吧。
2. OpenCL架构
OpenCL架构,可以从平台模型、内存模型、执行模型、编程模型四个角度来展开。
2.1 Platform Model
平台模型:硬件拓扑关系的抽象描述

- 平台模型由一个Host连接一个或多个OpenCL Devices组成;
- OpenCL Device,可以划分成一个或多个计算单元
Compute Unit(CU); - CU可以进一步划分成一个或多个处理单元
Processing Unit(PE),最终的计算由PE来完成; - OpenCL应用程序分成两部分:host代码和device kernel代码,其中Host运行host代码,并将kernel代码以命令的方式提交到OpenCL devices,由OpenCL device来运行kernel代码;
2.2 Execution Model
执行模型:Host如何利用OpenCL Device的计算资源完成高效的计算处理过程
Context
OpenCL的Execution Model由两个不同的执行单元定义:1)运行在OpenCL设备上的kernel;2)运行在Host上的Host program;
其中,OpenCL使用Context代表kernel的执行环境:

Context包含以下资源:
- Devices:一个或多个OpenCL设备;
- Kernel Objects:OpenCL Device的执行函数及相关的参数值,通常定义在cl文件中;
- Program Objects:实现kernel的源代码和可执行程序,每个program可以包含多个kernel;
- Memory Objects:Host和OpenCL设备可见的变量,kernel执行时对其进行操作;
NDrange

- kernel是Execution Model的核心,放置在设备上执行,当kernel执行前,需要创建一个索引空间NDRange(一维/二维/三维);
- 执行kernel实例的称为work-item,work-item组织成work-group,work-group组织成NDRange,最终将NDRange映射到OpenCL Device的计算单元上;
有两种方式来找到work-item:
- 通过work-item的全局索引;
- 先查找到所在work-group的索引号,再根据局部索引号确定;
以一维为例:

- 上图中总共有四个work-group,每个work-group包含四个work-item,所以local_size的大小为4,而local_id都是从0开始重新计数;
- global_size代表总体的大小,也就是16个work-item,而global_id则是从0开始计数;
以二维为例:

- 二维的计算方式与一维类似,也是结合global和local的size,可以得出global_id和local_id的大小,细节不表了;
三维的方式也类似,略去。
2.3 Memory Model
内存模型:Host和OpenCL Device怎么来看待数据

OpenCL的内存模型中,包含以下几类类型的内存:
- Host memory:Host端的内存,只能由Host直接访问;
- Global Memory:设备内存,可以由Host和OpenCL Device访问,允许Host的读写操作,也允许OpenCL Device中PE读写,Host负责该内存中Buffer的分配和释放;
- Constant Global Memory:设备内存,允许Host进行读写操作,而设备只能进行读操作,用于传输常量数据;
- Local Memory:单个CU中的本地内存,Host看不到该区域并无法对其操作,该区域允许内部的PE进行读写操作,也可以用于PE之间的共享,需要注意同步和并发问题;
- Private Memory:PE的私有内存,Host与PE之间都无法看到该区域;
2.4 Programming Model

- 在编程模型中,有两部分代码需要编写:一部分是Host端,一部分是OpenCL Device端;
- 编程过程中,核心是要维护一个Context,代表了整个Kernel执行的环境;
- 从cl源代码中创建Program对象并编译,在运行时创建Kernel对象以及内存对象,设置好相关的参数和输入之后,就可以将Kernel送入到队列中执行,也就是Launch kernel的流程;
- 最终等待运算结束,获取计算结果即可;
3. 编程流程

- 上图为一个OpenCL应用开发涉及的基本过程;
下边来一个实际的代码测试跑跑,Talk is cheap, show me the code!
4. 示例代码
- 测试环境:Ubuntu16.04,安装Intel CPU OpenCL SDK(
opencl_runtime_16.1.2_x64_rh_6.4.0.37.tgz); - 为了简化流程,示例代码都不做容错处理,仅保留关键的操作;
- 整个代码的功能是完成向量的加法操作;
4.1 Host端程序
#include <iostream>
#include <fstream>
#include <sstream>
#include <CL/cl.h>
const int DATA_SIZE = 10;
int main(void)
{
/* 1. get platform & device information */
cl_uint num_platforms;
cl_platform_id first_platform_id;
clGetPlatformIDs(1, &first_platform_id, &num_platforms);
/* 2. create context */
cl_int err_num;
cl_context context = nullptr;
cl_context_properties context_prop[] = {
CL_CONTEXT_PLATFORM,
(cl_context_properties)first_platform_id,
0
};
context = clCreateContextFromType(context_prop, CL_DEVICE_TYPE_CPU, nullptr, nullptr, &err_num);
/* 3. create command queue */
cl_command_queue command_queue;
cl_device_id *devices;
size_t device_buffer_size = -1;
clGetContextInfo(context, CL_CONTEXT_DEVICES, 0, nullptr, &device_buffer_size);
devices = new cl_device_id[device_buffer_size / sizeof(cl_device_id)];
clGetContextInfo(context, CL_CONTEXT_DEVICES, device_buffer_size, devices, nullptr);
command_queue = clCreateCommandQueueWithProperties(context, devices[0], nullptr, nullptr);
delete [] devices;
/* 4. create program */
std::ifstream kernel_file("vector_add.cl", std::ios::in);
std::ostringstream oss;
oss << kernel_file.rdbuf();
std::string srcStdStr = oss.str();
const char *srcStr = srcStdStr.c_str();
cl_program program;
program = clCreateProgramWithSource(context, 1, (const char **)&srcStr, nullptr, nullptr);
/* 5. build program */
clBuildProgram(program, 0, nullptr, nullptr, nullptr, nullptr);
/* 6. create kernel */
cl_kernel kernel;
kernel = clCreateKernel(program, "vector_add", nullptr);
/* 7. set input data && create memory object */
float output[DATA_SIZE];
float input_x[DATA_SIZE];
float input_y[DATA_SIZE];
for (int i = 0; i < DATA_SIZE; i++) {
input_x[i] = (float)i;
input_y[i] = (float)(2 * i);
}
cl_mem mem_object_x;
cl_mem mem_object_y;
cl_mem mem_object_output;
mem_object_x = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float) * DATA_SIZE, input_x, nullptr);
mem_object_y = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float) * DATA_SIZE, input_y, nullptr);
mem_object_output = clCreateBuffer(context, CL_MEM_READ_WRITE, sizeof(float) * DATA_SIZE, nullptr, nullptr);
/* 8. set kernel argument */
clSetKernelArg(kernel, 0, sizeof(cl_mem), &mem_object_x);
clSetKernelArg(kernel, 1, sizeof(cl_mem), &mem_object_y);
clSetKernelArg(kernel, 2, sizeof(cl_mem), &mem_object_output);
/* 9. send kernel to execute */
size_t globalWorkSize[1] = {DATA_SIZE};
size_t localWorkSize[1] = {1};
clEnqueueNDRangeKernel(command_queue, kernel, 1, nullptr, globalWorkSize, localWorkSize, 0, nullptr, nullptr);
/* 10. read data from output */
clEnqueueReadBuffer(command_queue, mem_object_output, CL_TRUE, 0, DATA_SIZE * sizeof(float), output, 0, nullptr, nullptr);
for (int i = 0; i < DATA_SIZE; i++) {
std::cout << output[i] << " ";
}
std::cout << std::endl;
/* 11. clean up */
clRetainMemObject(mem_object_x);
clRetainMemObject(mem_object_y);
clRetainMemObject(mem_object_output);
clReleaseCommandQueue(command_queue);
clReleaseKernel(kernel);
clReleaseProgram(program);
clReleaseContext(context);
return 0;
}
4.2 OpenCL Kernel函数
- 在Host程序中,创建program对象时会去读取kernel的源代码,本示例源代码位于:
vector_add.cl文件中
内容如下:
__kernel void vector_add(__global const float *input_x,
__global const float *input_y,
__global float *output)
{
int gid = get_global_id(0);
output[gid] = input_x[gid] + input_y[gid];
}
4.3 输出

参考
The OpenCL Specification
欢迎关注公众号,不定期分享技术文章

一文说清OpenCL框架的更多相关文章
- Android平台利用OpenCL框架实现并行开发初试
http://www.cnblogs.com/lifan3a/articles/4607659.html 在我们熟知的桌面平台,GPU得到了极为广泛的应用,小到各种电子游戏,大到高性能计算,多核心.高 ...
- 一文说清 KubeSphere 容器平台的价值
KubeSphere 作为云原生家族 后起之秀,开源近两年的时间以来收获了诸多用户与开发者的认可.本文通过大白话从零诠释 KubeSphere 的定位与价值,以及不同团队为什么会选择 KubeSphe ...
- 一文说清 InnoDB 的事务机制
我们从一个转账的故事开始. 隔壁小王从美团上找到了一家水饺店,准备中午吃水饺.下单成功,支付20元. 商家这里响了一下:叮叮,您有美团外卖新订单啦,请及时处理.水饺一份,好嘞,下锅. 很快小王吃到外卖 ...
- macOS的OpenCL高性能计算
随着深度学习.区块链的发展,人类对计算量的需求越来越高,在传统的计算模式下,压榨GPU的计算能力一直是重点. NV系列的显卡在这方面走的比较快,CUDA框架已经普及到了高性能计算的各个方面,比如Goo ...
- 《开源框架那些事儿22》:UI框架设计实战
UI是User Interface的缩写.通常被觉得是MVC中View的部分,作用是提供跟人机交互的可视化操作界面. MVC中Model提供内容给UI进行渲染,用户通过UI框架产生响应,一般而言会由控 ...
- jQuery和MVVM类框架的编程区别点
本文说的mvvm框架以react为列,其他应该也是类似的: react实际上仅仅是帮助我们再View层简化,让我们仅仅需要专注数据,只要数据改变,所有的视图就会自己跟随着改变, 本人自己做react项 ...
- OpenCL学习笔记(三):OpenCL安装,编程简介与helloworld
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. OpenCL安装 安装我不打算 ...
- CUDA与OpenCL架构
CUDA与OpenCL架构 目录 CUDA与OpenCL架构 目录 1 GPU的体系结构 1.1 GPU简介 1.2 GPU与CPU的差异 2 CUDA架构 2.1 硬件架构 2.1.1 GPU困境 ...
- OpenCV、OpenCL、OpenGL、OpenPCL
对于几个开源库的总结,作为标记,以前看过,现在开始重视起来!更详细资料请移步 开源中国社区! 涉及:OpenCV,OpenCL,OpenGL,OpenPCL 截止到目前: OpenGL的最新版本为4. ...
随机推荐
- Java语言中的这些知识点有没有用过,工作中有没有入过这些坑?
在Java语言中,有一些相对生僻的知识,平时用的机会可能不是很多,但如果不了解不掌握这些知识点的话,也可能会掉入陷阱之中,今天我们就来初步梳理一下: 1. goto是java语言中的关键字. &quo ...
- 【题解】斐波拉契 luogu3938
题目 题目描述 小 C 养了一些很可爱的兔子. 有一天,小 C 突然发现兔子们都是严格按照伟大的数学家斐波那契提出的模型来进行 繁衍:一对兔子从出生后第二个月起,每个月刚开始的时候都会产下一对小兔子. ...
- NOIP模拟测试15「建造城市city(插板法)·轰炸·石头剪刀布」
建造城市 题解 先思考一个简单问题 10个$toot$ 放进5间房屋,每个房屋至少有1个$toot$,方案数 思考:插板法,$10$个$toot$有$9$个缝隙,$5$间房屋转化为$4$个挡板,放在t ...
- DOS命令行(10)——reg/regini-注册表编辑命令行工具
注册表的介绍 注册表(Registry,台湾.港澳译作登錄檔)是Microsoft Windows中的一个重要的数据库,用于存储系统和应用程序的设置信息. 1. 数据结构 注册表由键(key,或称 ...
- Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇)
Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇) 目录 Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇) 1 Internal Locking Methods Row-Leve ...
- LM-MLC 一种基于完型填空的多标签分类算法
LM-MLC 一种基于完型填空的多标签分类算法 1 前言 本文主要介绍本人在全球人工智能技术创新大赛[赛道一]设计的一种基于完型填空(模板)的多标签分类算法:LM-MLC,该算法拟合能力很强能感知标签 ...
- spring boot @Async异步注解上下文透传
上一篇文章说到,之前使用了@Async注解,子线程无法获取到上下文信息,导致流量无法打到灰度,然后改成 线程池的方式,每次调用异步调用的时候都手动透传 上下文(硬编码)解决了问题. 后面查阅了资料,找 ...
- 大话Java代理模式
一.什么是代理 首先理解一下什么是代理.简单来说,代理就你要做一件事情,我替你把事情做了.这是现实生活中我们遇到的代理的需求场景.但写代码的时候对代理场景的需求,跟现实场景有点区别,本质上还是帮你做事 ...
- 暑假自学java第十一天
1,使用java.util.Arrays类处理数组 (1 ) public static void sort(数值类型 [ ] a):对指定的数值型数组按数字升序进行排序.在数组排序中设计一个简单的冒 ...
- Java:jar包与war包的差异
一般将项目分为两层:服务层和表现层(视图层),通常我们把服务层打包成jar,而把视图层的包打成war包. 仔细对比可以发现: jar包中包含了你写程序的所有服务或者第三方类库,它通常是作为幕后工作者, ...