OpenCL 三种内存对象的使用
▶ 包括带有 CL_MEM_READ_ONLY,CL_MEM_WRITE_ONLY,CL_MEM_READ_WRITE 标识的显示拷贝(函数 clEnqueueWriteBuffer 和 clEnqueueReadBuffer);带有 CL_MEM_COPY_HOST_PTR 标识的隐式拷贝(不用拷贝函数,在设备上直接使用);以及使用函数 clEnqueueMapBuffer 直接在设备和主机之间映射(转换)一段内存的指针
● 代码
#include <cl.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <iostream> using namespace std;
const int nElement = ; const char *programSource = " \
__kernel void vectorAdd(__global int *A, __global int *B, __global int *C) \
{ \
int idx = get_global_id(); \
C[idx] = A[idx] + B[idx]; \
return; \
} \
"; int main(int argc, char* argv[])
{
const size_t dataSize = sizeof(int) * nElement;
int i, *A, *B, *C, *returnC; A = (int *)malloc(dataSize);
B = (int *)malloc(dataSize);
C = (int *)malloc(dataSize);
for (srand((unsigned)time(NULL)), i = ; i < nElement; A[i] = rand() % , B[i] = rand() % , C[i] = A[i] + B[i], i++); cl_int status;
cl_platform_id platform;
clGetPlatformIDs(, &platform, NULL);
cl_device_id device;
clGetDeviceIDs(platform, CL_DEVICE_TYPE_ALL, , &device, NULL);
cl_context context = clCreateContext(NULL, , &device, NULL, NULL, &status);
cl_command_queue queue = clCreateCommandQueue(context, device, , &status);
cl_program program = clCreateProgramWithSource(context, , &programSource, NULL, &status);
clBuildProgram(program, , &device, NULL, NULL, NULL);
cl_kernel kernel = clCreateKernel(program, "vectorAdd", NULL);
cl_event writeEvent, runEvent, mapEvent; //创建三个内存对象,把 A 隐式拷贝到 clA,把 B 显示拷贝到 clB,clC 接收计算结果映射给 returnC
cl_mem clA = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, dataSize, A, NULL);
cl_mem clB = clCreateBuffer(context, CL_MEM_READ_ONLY, dataSize, NULL, NULL);
cl_mem clC = clCreateBuffer(context, CL_MEM_WRITE_ONLY, dataSize, NULL, NULL); clEnqueueWriteBuffer(queue, clB, , , dataSize, B, , , &writeEvent); clFlush(queue);// 出现需要等待的事件之前,把队列中的任务全部提交掉
clWaitForEvents(, &writeEvent);// 等待指定事件完成 // 执行内核
size_t global_work_size = nElement;
clSetKernelArg(kernel, , sizeof(cl_mem), (void*)&clA);
clSetKernelArg(kernel, , sizeof(cl_mem), (void*)&clB);
clSetKernelArg(kernel, , sizeof(cl_mem), (void*)&clC);
clEnqueueNDRangeKernel(queue, kernel, , NULL, &global_work_size, NULL, , NULL, &runEvent);
clFlush(queue);
clWaitForEvents(, &runEvent); // 结果拷回
returnC = (cl_int *)clEnqueueMapBuffer(queue, clC, CL_TRUE, CL_MAP_READ, , dataSize, , NULL, &mapEvent, NULL);
clFlush(queue);
clWaitForEvents(, &mapEvent); //结果验证
printf("Verify %s.\n", !memcmp(C, returnC, dataSize) ? "passed" : "failed");// 定义在 iostream free(C);
free(A);
free(B);
clReleaseMemObject(clA);
clReleaseMemObject(clB);
clReleaseMemObject(clC);
clReleaseContext(context);
clReleaseCommandQueue(queue);
clReleaseProgram(program);
clReleaseEvent(writeEvent);
clReleaseEvent(runEvent);
clReleaseEvent(mapEvent);
getchar();
return ;
}
● 输出结果
Verify passed.
● 注意
■ 事件在声明以后一定要通过某个函数的 cl_event * /* event */ 参数定义它,才能进行 clWaitForEvents 或 clReleaseEvent,否则会报错
● 使用 CL_MEM_COPY_HOST_PTR 和 CL_MEM_USE_HOST_PTR 的区别,前者创建一个独立的缓冲区,只是使用了 host_ptr 的值来初始化,后续使用过程中主机端对 host_ptr 的修改不会影响到缓冲区的内容;后者直接使用 host_ptr (转化为设备指针来使用),后续使用过程中主机端对 host_ptr 的修改仍会影响缓冲区内容
● 代码
#include <cl.h>
#include <stdio.h>
#include <stdlib.h> using namespace std;
const int nElement = ; const char *programSource = " \
__kernel void vectorAdd(__global int *A) \
{ \
return; \
} \
"; int main(int argc, char* argv[])
{
const size_t dataSize = sizeof(int) * nElement;
int i, sum, *A, *returnA, *mapReturnA; A = (int *)malloc(dataSize);
returnA = (int *)malloc(dataSize);
//mapReturnA = (int *)malloc(dataSize);// 注意用作内存映射的指针不需要申请内存,使用这个表达式会造成结尾处的运行时错误
for (i = ; i < nElement; A[i++] = ); cl_int status;
cl_platform_id platform;
clGetPlatformIDs(, &platform, NULL);
cl_device_id device;
clGetDeviceIDs(platform, CL_DEVICE_TYPE_ALL, , &device, NULL);
cl_context context = clCreateContext(NULL, , &device, NULL, NULL, &status);
cl_command_queue queue = clCreateCommandQueue(context, device, , &status);
cl_program program = clCreateProgramWithSource(context, , &programSource, NULL, &status);
status = clBuildProgram(program, , &device, NULL, NULL, NULL);
cl_kernel kernel = clCreateKernel(program, "vectorAdd", &status); cl_mem clA = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM_COPY_HOST_PTR, dataSize, A, NULL);
//cl_mem clA = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM_USE_HOST_PTR, dataSize, A, NULL); for (i = ; i < nElement; A[i++]++);// 在创建缓冲区以后再修改 A 的值 size_t global_work_size = nElement;
clSetKernelArg(kernel, , sizeof(cl_mem), (void*)&clA);
clEnqueueNDRangeKernel(queue, kernel, , NULL, &global_work_size, NULL, , NULL, NULL); clEnqueueReadBuffer(queue, clA, CL_TRUE, , dataSize, returnA, , NULL, NULL);
mapReturnA = (cl_int *)clEnqueueMapBuffer(queue, clA, CL_TRUE, CL_MAP_READ, , dataSize, , NULL, NULL, &status); for (i = sum = ; i < nElement; sum += A[i++]);
printf("sum A = %d\n", sum);
for (i = sum = ; i < nElement; sum += returnA[i++]);
printf("sum returnA = %d\n", sum);
for (i = sum = ; i < nElement; sum += mapReturnA[i++]);
printf("sum mapReturnA = %d\n", sum); free(A);
free(returnA);
clReleaseMemObject(clA);
clReleaseContext(context);
clReleaseCommandQueue(queue);
clReleaseProgram(program);
getchar();
return ;
}
● 输出结果
■ 使用 CL_MEM_COPY_HOST_PTR,仅有主机端的值被修改
sum A =
sum returnA =
sum mapReturnA =
■ 使用 CL_MEM_USE_HOST_PTR,设备端使用的缓冲区也遭到了修改
sum A =
sum returnA =
sum mapReturnA =
OpenCL 三种内存对象的使用的更多相关文章
- C++二级指针第三种内存模型
#include "stdio.h" #include "stdlib.h" #include "string.h" void main() ...
- C#中三种定时器对象的比较 【转】
https://www.cnblogs.com/zxtceq/p/5667281.html C#中三种定时器对象的比较 ·关于C#中timer类 在C#里关于定时器类就有3个1.定义在System.W ...
- 深入理解C语言-二级指针三种内存模型
二级指针相对于一级指针,显得更难,难在于指针和数组的混合,定义不同类型的二级指针,在使用的时候有着很大的区别 第一种内存模型char *arr[] 若有如下定义 char *arr[] = {&quo ...
- OpenCL中三种内存创建image的效率对比
第一种:使用ION: cl_mem_ion_host_ptr ion_host_ptr1; ion_host_ptr1.ext_host_ptr.allocation_type = CL_MEM_IO ...
- C#中三种定时器对象的比较
·关于C#中timer类 在C#里关于定时器类就有3个1.定义在System.Windows.Forms里2.定义在System.Threading.Timer类里3.定义在System.Timers ...
- Servlet学习笔记(1)--第一个servlet&&三种状态对象(cookie,session,application)&&Servlet的生命周期
servlet的404错误困扰了两天,各种方法都试过了,翻书逛论坛终于把问题解决了,写此博客来纪念自己的第一个servlet经历. 下面我会将自己的编写第一个servlet的详细过程提供给初学者,大神 ...
- windows的三种内存管理方法
Windows的内存管理方法 windows提供了3种方法来进行内存管理: l 虚拟内存,最适合用来管理大型对象或者结构数组 l 内存映射文件,最适合用来管理大型数据流 ...
- 转:三种状态对象的使用及区别(Application,Session,Cookie)
Application状态对象 Application 对象是HttpApplication 类的实例,将在客户端第一期从某个特定的ASP.NET应用程序虚拟目录中请求任何URL 资源时创建.对于We ...
- 三种分布式对象主流技术——COM、Java和COBRA
既上一遍,看到还有一遍将关于 对象的, 分布式对象, 故摘抄入下: 目前国际上,分布式对象技术有三大流派——COBRA.COM/DCOM和Java.CORBA技术是最早出现的,1991年OMG颁布了C ...
随机推荐
- 这些HTML、CSS知识点,面试和平时开发都需要 No5-No7(知识点:文字设置、设置背景、数据列表)
系列知识点汇总 这些HTML.CSS知识点,面试和平时开发都需要 No1-No4(知识点:HTML.CSS.盒子模型.内容布局) 这些HTML.CSS知识点,面试和平时开发都需要 No5-No7(知识 ...
- iTerm2的设置和Zsh.
很好的说明文: https://xiaozhou.net/learn-the-command-line-iterm-and-zsh-2017-06-23.html iTerm2是Mac os用户使用的 ...
- 1003: [ZJOI2006]物流运输 最短路+dp
https://www.lydsy.com/JudgeOnline/problem.php?id=1003 数据范围很小,怎么瞎搞都行,n方dp,然后跑出最短路暴力转移,需要注意的是不能使用的可能有多 ...
- vijos 1082
描述 东非大裂谷中有一片神秘的丛林,是全世界探险家的乐园,著名黄皮肤探险家BB一直想去试试.正好我国科学家2005年4月将首次对东非大裂谷进行科考,BB决定随科考队去神秘丛林探险.在出发之前,他搜集了 ...
- 手动编译JAVA类
javac -encoding utf-8 -Djava.ext.dirs=D:\JDeveloper\jdevbin\BC4J\lib\;D:\JDeveloper\jdevbin\j2ee\ho ...
- TCP握手及状态图
为什么需要“三次握手”? 为了解决“网络中存在延迟的重复分组”的问题,即为了防止已失效的连接请求报文段突然又传送到了服务端,因而产生错误. 例:“已失效的连接请求报文段”的产生在这样一种情况下:cli ...
- MAP 最大后验——利用经验数据获得对未观测量的点态估计
Map (最大后验) 在贝叶斯统计学中,最大后验(Maximum A Posteriori,MAP)估计可以利用经验数据获得对未观测量的点态估计.它与Fisher的最大似然估计(Maximum Lik ...
- hdu 3689 杭州 10 现场 J - Infinite monkey theorem 概率dp kmp 难度:1
J - Infinite monkey theorem Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d &am ...
- checkbox选中的问题(Ajax.BeginForm)
判断checkbox选中的方法方法一:if ($("#checkbox-id")get(0).checked) { // do something} 方法二:if($('#chec ...
- PLSQL 触发器
触发器权限 数据库创建用户时想要在本用户下使用触发器,需要给用户触发器的权限 使用DBA用户执行 GRANT CREATE TRIGGER TO user_name; 如果想在当前用户下创建其他用户 ...