clCreateBuffer和clCreateBuufer + clEnqueueWriteBuffer

有两种方式实现从主机到CL设备的数据传递，

第一种：

cl_mem input = clCreateBuffer(context,CL_MEM_READ_ONLY,sizeof(float) * DATA_SIZE, NULL, NULL);

clEnqueueWriteBuffer(command_queue, input, CL_TRUE, 0, sizeof(float) * DATA_SIZE, inputdata, 0, NULL, NULL);

第二种：

cl_mem input = clCreateBuffer(context,CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(float) * DATA_SIZE, inputdata, NULL);

这两种写法可以说是没啥区别，但是如过第二中写法中CL_MEM_COPY_HOST_PTR换成CL_MEM_USE_HOST_PTR，那么根据文档的说法，第二种并不会把主机的inputdata复制到设备，而仅仅是cache
如果inputdata仅仅会初始化一次，那么使用第二种方法看起来更加便捷；但是如果对inputdata要进行多次更新，那么使用第一种的方式更好，可以调用clEnqueueWriteBuffer进行更新
使用第一种可以在clEnqueueWriteBuffer中使用event来测量耗时
第一种写法会先在主机创建一个second temporary buffer on the host，然后等到设置这个buffer到kernel的时候再把数据拷贝到设备上。这样，就可能会在一个短暂的时候，主机上有两份内存。如果buffer比较大，就会引发问题。而第二种方法则是立即把数据复制的设备，没有额外的临时内存分配。参考
如果clcontext上绑定了多个device，那么使用第二种方法则会在每个device上都分配该buffer。如果只想对某个设备分配该buffer，那么就应该使用与device绑定了的clEnqueueWriteBuffer。参考
然而，在高通的优化指南中，这两种做法都不推荐。推荐使用Zero Copy的写法，其关键在于CL_MEM_ALLOC_HOST_PTR的应用

// First set cl_mem_flags input in clCreateBuffer:

cl_mem Buffer = clCreateBuffer(context,

    CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR,

    sizeof(cl_ushort) * size,

    NULL,

    &status);

//Then use the map function to return a pointer to the host:

cl_uchar *hostPtr = (cl_uchar *)clEnqueueMapBuffer(

    commandQueue,

    Buffer,

    CL_TRUE,

    CL_MAP_WRITE,

    0,

    sizeof(cl_uchar) * size,

    0, NULL, NULL, &status);

//Host updates the buffer using the pointer hostPtr

    memcpy(hostPtr, sizeof(cl_uchar) * size, datafromhost);

//Unmapped the object

status = clEnqueueUnmapMemObject(

    commandQueue,

    Buffer,

    (void *) hostPtr,

    0, NULL, NULL);

//The object can be used by OpenCL kernels

clCreateBuffer和clCreateBuufer + clEnqueueWriteBuffer的更多相关文章

【异构计算】OpenCL矩阵转置
介绍矩阵转置,主要的技巧还是利用好local memory ,防止local memory,以及glabol memory的读取尽量是合并读写. 完整代码一: main.cpp代码 #include ...
OpenCL将数组从内存copy到显存
本来想对上一篇博客做优化,优化效果不明显.但知识点还是要记一下. 初衷是想把上一篇博客中定义域的计算搬到CPU来计算,因为定义域的计算对于每一个kernel都是一样的,所以直接读取应该是可以进一步减小 ...
Opencl 并行求和
上周尝试用opencl求极大值,在网上查到大多是求和,所谓的reduction算法.不过思路是一样的. CPP: ; unsigned ; ; ; int nGroup = nGroupSize / ...
opencl初体验
总结一下,opencl的步骤差不多是这些先要获取平台的id clGetPlatformIDs(nPlatforms, platform_id, &num_of_platforms) 然后获取 ...
Mac OS X 背后的故事
Mac OS X 背后的故事作者: 王越来源: <程序员> 发布时间: 2013-01-22 10:55 阅读: 25840 次推荐: 49 原文链接 [收藏] ...
about opencl
Platform:LG G3,Adreno 330 1. 8M(3264x2448) memmap方式读入时间24ms,读出时间12ms,时间与内存大小基本成线性关系.使用memmap 与 memco ...
OpenCL memory object 之 Global memory (2)
转载自:http://www.cnblogs.com/mikewolf2002/archive/2011/12/18/2291584.html 当我们用clCreateBuffer, clCreate ...
macOS的OpenCL高性能计算
随着深度学习.区块链的发展,人类对计算量的需求越来越高,在传统的计算模式下,压榨GPU的计算能力一直是重点. NV系列的显卡在这方面走的比较快,CUDA框架已经普及到了高性能计算的各个方面,比如Goo ...
OpenCL的buffer以及sub-buffer
buffer,sub-buffer和image对比相同点:都是OCL memory对象维度特性关键词 buffer 一维 array of bytes sub-buffer 一维 views i ...

随机推荐

贪心算法----区间选点问题(POJ1201)
题目: 题目的大致意思是,给定n个闭区间,并且这个闭区间上的点都是整数,现在要求你使用最少的点来覆盖这些区间并且每个区间的覆盖的点的数量满足输入的要求点覆盖区间的数量. 输入: 第一行输入n,代表n个 ...
Python学到什么程度就可以去找工作？掌握这4点足够了！
大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”,对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来,一般都不会有什么问 ...
vue父子组件及非父子组件通信
1.父组件传递数据给子组件父组件数据如何传递给子组件呢?可以通过props属性来实现父组件: <parent> <child :child-msg="msg" ...
最小化JIT示例(仅限Intel x86+Windows)
#include <Windows.h> #include <cstdint> #include <cstring> #define BACK_FILL (0) i ...
SEO需要掌握的基础知识
什么是SEO? 官方解释: SEO是指通过对网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名, 从而把精准用户带到网站,获得免费流量,产生直接销售或品牌推广 ...
[Swift]LeetCode209. 长度最小的子数组 | Minimum Size Subarray Sum
Given an array of n positive integers and a positive integer s, find the minimal length of a contigu ...
chmod命令相关
原文地址:https://www.jianshu.com/p/862a9938cc09 chmod命令用于修改文件的权限. Linux文件的三种身份和四种权限三种身份 u:文件的拥有者: g:文件所 ...
BBS论坛（二十二）
22.1.七牛js上传轮播图图片 (1)common/zlqiniu.js 'use strict'; var zlqiniu = { 'setup': function (args) { var d ...
『Tarjan算法有向图的强连通分量』
有向图的强连通分量定义:在有向图\(G\)中,如果两个顶点\(v_i,v_j\)间\((v_i>v_j)\)有一条从\(v_i\)到\(v_j\)的有向路径,同时还有一条从\(v_j\)到\( ...
『Tarjan算法无向图的割点与割边』
无向图的割点与割边定义:给定无相连通图\(G=(V,E)\) 若对于\(x \in V\),从图中删去节点\(x\)以及所有与\(x\)关联的边后,\(G\)分裂为两个或以上不连通的子图,则称\(x ...

clCreateBuffer和clCreateBuufer + clEnqueueWriteBuffer

clCreateBuffer和clCreateBuufer + clEnqueueWriteBuffer的更多相关文章

随机推荐

热门专题