《OpenCL异构并行编程实战》第十二至十四章

▶ 第十二章，在其他语言中使用 OpenCL

● JOCL（Java Building for OpenCL），PyOpenCL

● 一个 PyOpenCL 的例子代码，需要 pyopencl 包

 import pyopencl as cl

 import numpy as np

 import numpy.linalg as la

 a = np.random.rand(50000).astype(np.float32)

 b = np.random.rand(50000).astype(np.float32)

 ctx = cl.create_some_context()

 queue = cl.CommandQueue(ctx)

 mf = cl.mem_flags

 a_buf = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf = a)

 b_buf = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf = b)

 c_buf = cl.Buffer(ctx, mf.WRITE_ONLY, b.nbytes)

 code = """

 __kernel void vecadd(__global const float *a, __global const float *b, __global float *c)

 {

     int gid=get_global_id(0);

     c[gid] = a[gid] + b[gid];

 }

 """

 prg = cl.Program(ctx, code).build()

 prg.vecadd(queue, a.shape, None, a_buf, b_buf, c_buf)

 a_plus_b = np.empty_like(a)

 cl.enqueue_copy(queue, a_plus_b, c_buf)

 print(sum(a_plus_b - (a + b)))

● OpenCL 对象的生命周期不是由一个 C 作用域来定义，而是由引用计数操作来定义。

▶ 第十三章，OpenCL 的性能剖析和调试

● 查看事件状态

 void initializeCL(void)

 {

     cl_int status = ;

     cl_ulong time;

     cl_event ev;

     cl_platform_id      platform;

     cl_device_id        device;

     cl_context          context;

     cl_command_queue    commandQueue;

     clGetPlatformIDs(, &platform, NULL);

     clGetDeviceIDs(platform, CL_DEVICE_TYPE_GPU, , &device, NULL);

     context = clCreateContext(NULL, , &device, NULL, NULL, NULL);

     commandQueue = clCreateCommandQueue(context, device, CL_QUEUE_PROFILING_ENABLE, &status);// 创建队列时传入事件分析属性值，之后无法变更

     ...// 关于ev 的一些操作 

     clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_QUEUED, sizeof(cl_ulong), &time, NULL);// 获取事件进入命令队列的时刻

     clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_SUBMIT, sizeof(cl_ulong), &time, NULL);// 获取事件提交到设备的时刻

     clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &time, NULL); // 获取事件开始执行的时刻

     clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &time, NULL);   // 获取事件执行完成的时刻

 }

● 启用 AMD printf 扩展，允许咋个核函数中使用 printf 函数

 #pragma OPENCL EXTENSION cl_amd_printf: enable

▶ 第十四章，某图像分析应用的性能调优

● Kernel Occupancy，定义为 N_W^A（一个计算单元上能并发执行的 wavefront 数目）与 N_W^T（该计算单元能启动的 wavefront 数目的最大值）之比。N_W^A取决于三个因素：每个 work-item 需要的 GPRS 数目，每个 workgroup 需要的本地内存大小（LDS）和 workgroup 的尺寸。

● LDS 对 KO 的影响：WF_LDS^max = min{WG_CU^max, WG^max} * WF_WG。WF_WG为每个 workgroup 的 wavefront 大小（与 LDS 大小没有必然联系）；WG_CU^max 为硬件规定一个计算单元中 workgroup 的数量上限，WG^max = LDS_CU / LDS_WG 为用本地内存计算得到的工作组数量上限，LDS_CU 为本地内存大小， LDS_WG 为一个 workgroup 需要的 LDS 的大小。

● GPR 对 KO 的影响：WF_GPR^max = floor(WF_GPR / WF_WG) * WF_WG。WF_GPR = N_reg^max / N_reg^used，为每个 work-item 使用的寄存器的最大数量和。这里相当于把 WF_GPR 乡下四舍五入到的整数倍 WF_WG。

● 如果一个 kernel 的性能受 GPRS 的限制，而不受 LDS 的限制，则将部分数据转入 LDS 中会部分优化性能，过多的转移数据会进入全局内存中，严重影响执行速度

《OpenCL异构并行编程实战》第十二至十四章的更多相关文章

《OpenCL异构并行编程实战》补充笔记散点，第一至四章
▶ 总体印象:适合 OpenCL 入门的书,有丰富的代码和说明,例子较为简单.先把 OpenCL 代码的基本结构(平台 → 设备 → 上下文 → 命令队列 → 创建缓冲区 → 读写缓冲区 → 编译代码 ...
《OpenCL异构并行编程实战》补充笔记散点，第五至十二章
▶ 第五章,OpenCL 的并发与执行模型 ● 内存对象与上下文相关而不是与设备相关.设备在不同设备之间的移动如下,如果 kernel 在第二个设备上运行,那么在第一个设备上产生的任何数据结果在第二个 ...
【ARM-Linux开发】OpenACC并行编程实战笔记
今年运气比较好,学了cuda之后,了解到了gpu的另两种使用语言opencl和openacc, opencl(Open Computing Language ,开放计算语言)是面向异构系统的并行编程 ...
#Python编程从入门到实践#第四章笔记
#Python编程从入门到实践#第四章笔记操作列表 1.遍历列表使用for循环,遍历values列表 for value in values: print(value) 2.数字列表使 ...
【全面解禁!真正的Expression Blend实战开发技巧】第四章从最常用ButtonStyle开始 - PathButton
原文:[全面解禁!真正的Expression Blend实战开发技巧]第四章从最常用ButtonStyle开始 - PathButton 上一篇我们介绍了TextButton,但为了追求界面的张力, ...
《Visual C++并行编程实战》译者序
说来凑巧,当开始着手这本书的翻译时,我刚刚入手了自己第一台四核计算机,而翻译工作临近完成之时,我又为自己添置了一台iPad 2(这是一台双核计算机).由此可见,多核计算机已经完全进入了我的日常生活.鉴 ...
《JAVA并发编程实战》示例程序第三章
3.1 可见性程序清单3-1 在没有同步的情况下共享变量(不要这么做) /** * 主线程和读线程都将访问共享变量:ready 和 number * 结果可能 * 1. 主线程先运行完,读线程后运行 ...
《Java并发编程实战》读书笔记-第5章基础构建模块
同步容器类同步容器类实现线程安全的方式:将所有状态封装起来,对每个公有方法使用同步,使得每一次只有一个线程可以访问.同步容器类包含:Vector.Hashtable.Collections.sync ...

随机推荐

hell 1>&2 2>&1 &>filename重定向的含义和区别
当初在shell中, 看到">&1"和">&2"始终不明白什么意思.经过在网上的搜索得以解惑.其实这是两种输出. 一.linux重定 ...
vue-cli如何添加多种环境变量
vue-cli如何添加多种环境变量目前webpack(vue-cli) 打包有两种变量,development, productor, 如何添加一个 test的测试环境呢 vue-cli 3.0 v ...
javascript中new Date()会存在偏差一小时的bug
事件回顾: 因为我们的产品会有与时间转换这部分,并且流量主要集中在小程序. emmm~ 获取用户出生的年/月/日/时我们和后台协商的是换算用户选择后的时间为年/月/日/时/分/秒所以我们 ...
HDU 1029 基础dp
题目链接:Ignatius and the Princess IV 大意:就是在N个数里找出唯一一个至少出现过(N+1)/ 2 次的数. 1 <= N <= 999999. hash: / ...
Spartan6上软核系统自定义外设调用AXI Stream FFT经验
这几天希望能在Spartan系列新品xc6slx16csg324-2运行带有FFT的软核处理系统,基本系统早就搭建好了.需要做的就是建立一个封装有Xilinx提供的FFT IP的自定义外设.由于Xil ...
MVC项目使用Oracle数据库运行提示：找不到请求的 .Net Framework Data Provider。可能没有安装
MVC项目使用Entity Framework针对Oracle数据库进行开发时,由于Oracle官方网站一般建议开发者在64位操作系统中使用32位ODP.Net进行开发.在进行程序编码的时候不会有问题 ...
PostgreSQL锁级别及什么操作获取什么锁
表级锁大多数的表级锁是由内置的 SQL 命令获得的,但他们也可以通过锁命令来明确获取.可使用的表级锁包括: 访问共享(ACCESS SHARE) - SELECT 命令可在查询中引用的表上获得该锁. ...
spring boot 教程（三）配置详解
在大部分情况下,我们不需要做太多的配置就能够让spring boot正常运行.在一些特殊的情况下,我们需要做修改一些配置,或者需要有自己的配置属性. Spring Boot 支持多种外部配置方式这些 ...
Wordpress 加载 js 文件到底部
wp_enqueue_script wp_enqueue_script( string $handle, string $src = '', array $deps = array(), string ...
BZOJ3033: 太鼓达人（欧拉回路）
Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 524 Solved: 400[Submit][Status][Discuss] Description ...

《OpenCL异构并行编程实战》第十二至十四章

《OpenCL异构并行编程实战》第十二至十四章的更多相关文章

随机推荐

热门专题