OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射

随着OpenCL的普及，现在有越来越多的移动设备以及平板、超级本等都支持OpenCL异构计算。而这些设备与桌面计算机、服务器相比而言性能不是占主要因素的，反而能耗更受人关注。因此，这些移动设备上的GPU与CPU基本都是在同一芯片上（SoC），或者GPU就已经成为了处理器的一部分，像Intel Ivy Bridge架构开始的处理器（Intel HD Graphics 4000开始支持OpenCL），AMD APU等。

因此，在这些设备上做OpenCL的异构并行计算的话，我们不需要像桌面端那些独立GPU那样，要把主存数据通过PCIe搬运到GPU端，然后等GPU计算结束后再搬回到主存。我们只需要将给GPU端分配的显存映射到主机端即可。这样，在主机端我们也能直接通过指针来操作这块存储数据。

下面编写了一个比较简单的例子来描述如何使用OpenCL的存储器映射特性。这个例子在MacBook Air，OS X 10.9.2下完成，并通过Xcode 5.1，Apple LLVM 5.1的编译与运行。硬件环境为：Intel Core i7 4650U, Intel Graphics 5000, 8GB DDR3L, 128GB SSD

这是主机端代码（C源文件）：

#include <stdio.h>

#include <string.h>

#include <stdlib.h>

#include <time.h>

#ifdef __APPLE__

#include <OpenCL/opencl.h>

#else

#include <CL/cl.h>

#endif

int main(void)

{

    cl_int ret;

    cl_platform_id platform_id = NULL;

    cl_device_id device_id = NULL;

    cl_context context = NULL;

    cl_command_queue command_queue = NULL;

    cl_mem memObj = NULL;

    char *kernelSource = NULL;

    cl_program program = NULL;

    cl_kernel kernel = NULL;

    int *pHostBuffer = NULL;

    clGetPlatformIDs(, &platform_id, NULL);

    if(platform_id == NULL)

    {

        puts("Get OpenCL platform failed!");

        goto FINISH;

    }

    clGetDeviceIDs(platform_id, CL_DEVICE_TYPE_GPU, , &device_id, NULL);

    if(device_id == NULL)

    {

        puts("No GPU available as a compute device!");

        goto FINISH;

    }

    context = clCreateContext(NULL, , &device_id, NULL, NULL, &ret);

    if(context == NULL)

    {

        puts("Context not established!");

        goto FINISH;

    }

    command_queue = clCreateCommandQueue(context, device_id, , &ret);

    if(command_queue == NULL)

    {

        puts("Command queue cannot be created!");

        goto FINISH;

    }

    // 指定内核源文件路径

    const char *pFileName = "/Users/zennychen/Downloads/test.cl";

    FILE *fp = fopen(pFileName, "r");

    if (fp == NULL)

    {

        puts("The specified kernel source file cannot be opened!");

        goto FINISH;

    }

    fseek(fp, , SEEK_END);

    const long kernelLength = ftell(fp);

    fseek(fp, , SEEK_SET);

    kernelSource = malloc(kernelLength);

    fread(kernelSource, , kernelLength, fp);

    fclose(fp);

    program = clCreateProgramWithSource(context, , (const char**)&kernelSource, (const size_t*)&kernelLength, &ret);

    ret = clBuildProgram(program, , &device_id, NULL, NULL, NULL);

    if (ret != CL_SUCCESS)

    {

        size_t len;

        char buffer[ * ];

        printf("Error: Failed to build program executable!\n");

        clGetProgramBuildInfo(program, device_id, CL_PROGRAM_BUILD_LOG, sizeof(buffer), buffer, &len);

        printf("%s\n", buffer);

        goto FINISH;

    }

    kernel = clCreateKernel(program, "test", &ret);

    if(kernel == NULL)

    {

        puts("Kernel failed to create!");

        goto FINISH;

    }

    const size_t contentLength = sizeof(*pHostBuffer) *  * ;

    // 以下为在主机端分配输入缓存

    pHostBuffer = malloc(contentLength);

    // 然后对此工作缓存进行初始化

    for(int i = ; i <  * ; i++)

        pHostBuffer[i] = i + ;

    // 这里预分配的缓存大小为4MB，第一个参数是读写的

    memObj = clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM_USE_HOST_PTR, contentLength, pHostBuffer, &ret);

    if(memObj == NULL)

    {

        puts("Memory object1 failed to create!");

        goto FINISH;

    }

    ret = clSetKernelArg(kernel, , sizeof(cl_mem), (void*)&memObj);

    if(ret != CL_SUCCESS)

    {

        puts("Set arguments error!");

        goto FINISH;

    }

    // 做存储器映射

    int *pDeviceBuffer = clEnqueueMapBuffer(command_queue, memObj, CL_TRUE, CL_MAP_READ | CL_MAP_WRITE, , contentLength, , NULL, NULL, &ret);

    if(pDeviceBuffer == NULL)

    {

        puts("Memory map failed!");

        goto FINISH;

    }

    if(pDeviceBuffer != pHostBuffer)

    {

        // 若从GPU端映射得到的存储器地址与原先主机端的不同，则将数据从主机端传递到GPU端

        ret = clEnqueueWriteBuffer(command_queue, memObj, CL_TRUE, , contentLength, pHostBuffer, , NULL, NULL);

        if(ret != CL_SUCCESS)

        {

            puts("Data transfer failed");

            goto FINISH;

        }

        /** 如果主机端与设备端地址不同，我们不妨测试一下设备端存储器的Cache情况 */

        // 先测试主机端的时间

        int sum = ;

        // 先过一遍存储器

        for(int j = ; j < ; j++)

            sum += pHostBuffer[j];

        time_t t1 = time(NULL);

        for(int i = ; i < ; i++)

        {

            for(int j = ; j < ; j++)

                sum += pHostBuffer[j];

        }

        time_t t2 = time(NULL);

        printf("The host delta time is: %f. The value is: %d\n", difftime(t2, t1), sum);

        // 测试设备端

        sum = ;

        // 先过一遍存储器

        for(int j = ; j < ; j++)

            sum += pDeviceBuffer[j];

        t1 = time(NULL);

        for(int i = ; i < ; i++)

        {

            for(int j = ; j < ; j++)

                sum += pDeviceBuffer[j];

        }

        t2 = time(NULL);

        printf("The device delta time is: %f. The value is: %d\n", difftime(t2, t1), sum);

    }

    else

    {

        // 若主机端与设备端存储器地址相同，我们仅仅做CPU端测试

        int sum = ;

        // 先过一遍存储器

        for(int j = ; j < ; j++)

            sum += pHostBuffer[j];

        time_t t1 = time(NULL);

        for(int i = ; i < ; i++)

        {

            for(int j = ; j < ; j++)

                sum += pHostBuffer[j];

        }

        time_t t2 = time(NULL);

        printf("The host delta time is: %f. The value is: %d\n", difftime(t2, t1), sum);

    }

    // 这里指定将总共有1024 * 1024个work-item

    ret = clEnqueueNDRangeKernel(command_queue, kernel, , NULL, (const size_t[]){ * }, NULL, , NULL, NULL);

    // 做次同步，这里偷懒，不用wait event机制了～

    clFinish(command_queue);

    // 做校验

    for(int i = ; i <  * ; i++)

    {

        if(pDeviceBuffer[i] != (i + ) * )

        {

            puts("Result error!");

            break;

        }

    }

    puts("Compute finished!");

FINISH:

    /* Finalization */

    if(pHostBuffer != NULL)

        free(pHostBuffer);

    if(kernelSource != NULL)

        free(kernelSource);

    if(memObj != NULL)

        clReleaseMemObject(memObj);

    if(kernel != NULL)

        clReleaseKernel(kernel);

    if(program != NULL)

        clReleaseProgram(program);

    if(command_queue != NULL)

        clReleaseCommandQueue(command_queue);

    if(context != NULL)

        clReleaseContext(context);

    return ;

}

以下是OpenCL内核源代码：

__kernel void test(__global int *pInOut)

{

    int index = get_global_id();

    pInOut[index] += pInOut[index];

}

另外，主机端代码部分中，OpenCL源文件路径是写死的。各位朋友可以根据自己环境来重新指定路径。

当然，我们还可以修改主机端“clCreateBuffer(context, CL_MEM_READ_WRITE | CL_MEM_USE_HOST_PTR, contentLength, pHostBuffer, &ret);”这段创建存储器对象的属性。比如，将CL_MEM_USE_HOST_PTR去掉。然后可以再试试效果。

倘若clCreateBuffer的flags参数用的是CL_MEM_ALLOC_HOST_PTR，那么其host_ptr参数必须为空。在调用clEnqueueMapBuffer之后，可以根据其返回的缓存地址，对存储区域做数据初始化。

CL_MEM_ALLOC_HOST_PTR表示应用程序暗示OpenCL实现从主机端可访问的存储空间给设备端分配存储缓存。这个与CL_MEM_USE_HOST_PTR还是有所区别的。CL_MEM_USE_HOST_PTR是完全从应用端当前的内存池分配存储空间；而CL_MEM_ALLOC_HOST_PTR对于CPU与GPU共享主存的环境下，可以在CPU端留下一个访问GPU端VRAM的入口点。我们通过以下程序来测试当前环境的OpenCL实现（以下代码在调用调用了clEnqueueMapBuffer函数之后做了缓存数据初始化的时间比较）：

    long deltaTimes[];

    for(int i = ; i < ; i++)

    {

        struct timeval tBegin, tEnd;

        gettimeofday(&tBegin, NULL);

        for(int i = ; i <  * ; i++)

            pDeviceBuffer[i] = i + ;

        gettimeofday(&tEnd, NULL);

        deltaTimes[i] =  * (tEnd.tv_sec - tBegin.tv_sec ) + tEnd.tv_usec - tBegin.tv_usec;

    }

    long useTime = deltaTimes[];

    for(int i = ; i < ; i++)

    {

        if(useTime > deltaTimes[i])

            useTime = deltaTimes[i];

    }

    printf("Device memory time spent: %ldus\n", useTime);

    int *pHostBuffer = malloc(contentLength);

    for(int i = ; i < ; i++)

    {

        struct timeval tBegin, tEnd;

        gettimeofday(&tBegin, NULL);

        for(int i = ; i <  * ; i++)

            pHostBuffer[i] = i + ;

        gettimeofday(&tEnd, NULL);

        deltaTimes[i] =  * (tEnd.tv_sec - tBegin.tv_sec ) + tEnd.tv_usec - tBegin.tv_usec;

    }

    useTime = deltaTimes[];

    for(int i = ; i < ; i++)

    {

        if(useTime > deltaTimes[i])

            useTime = deltaTimes[i];

    }

    printf("Host memory time spent: %ldus\n", useTime);

其中，对gettimeofday的调用需要包含头文件<sys/time.h>。这个函数所返回的时间可以精确到μs（微秒）。

在Intel Core i7 4650U, Intel Graphics 5000环境下，花费时间差不多，都是2.6ms（毫秒）。因此，在内核真正执行的时候为了清空这部分存储空间的Cache，驱动还是要做点工作的。当然，驱动也可为这块内存区域分配Write-Combined类型的存储器，这样主机端对这部分数据的访问不会被Cache，尽管速度会慢很多，但是通过non-temporal Stream方式读写还是会很不错。况且大部分OpenCL应用对同一块内存数据的读写都只有一次，这么做也不会造成Cache污染。

OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射的更多相关文章

探究@property申明对象属性时copy与strong的区别
一.问题来源一直没有搞清楚NSString.NSArray.NSDictionary--属性描述关键字copy和strong的区别,看别人的项目中属性定义有的用copy,有的用strong.自己在开 ...
[源码]Literacy 快速反射读写对象属性,字段
Literacy 说明 Literacy使用IL指令生成方法委托,性能方面,在调用次数达到一定量的时候比反射高很多当然,用IL指令生成一个方法也是有时间消耗的,所以在只使用一次或少数几次的情况,不但 ...
了解JavaScript 对象属性的标签
对象属性的标签 value(属性值), writable(属性可写), enumerable(属性可枚举), configurable(属性可配置), 这些属性标签使对象所持有的属性体现出不同的特性, ...
区分元素特性attribute和对象属性property
× 目录 [1]定义 [2]共有 [3]例外[4]特殊[5]自定义[6]混淆[7]总结前面的话其实attribute和property两个单词,翻译出来都是属性,但是<javascript高 ...
JavaScript对象属性(一)
对象object 对象和数组很相似,数组是通过索引来访问和修改数据,对象是通过属性来访问和修改数据的. 这是一个示例对象: var cat = { "name": "W ...
JS中isPrototypeOf 和hasOwnProperty 的区别 ------- js使用in和hasOwnProperty获取对象属性的区别
JS中isPrototypeOf 和hasOwnProperty 的区别 1.isPrototypeOf isPrototypeOf是用来判断指定对象object1是否存在于另一个对象object2的 ...
采用重写tostring方法使ComboBox显示对象属性
当ComboBox中添加的是对象集合的时候,如果运行就会发现显示是的命令空间.类名,而如果我们想显示对象属性名的时候,我们就可以在对象类中重写object基类中的tostring方法.
json对象数组按对象属性排序
var array = [ {name: 'a', phone: 1, value: 'val_4'}, {name: 'b', phone: 5, value: 'val_3'}, {name: ' ...
JavaScript学习10 JS数据类型、强制类型转换和对象属性
JavaScript学习10 JS数据类型.强制类型转换和对象属性 JavaScript数据类型 JavaScript中有五种原始数据类型:Undefined.Null.Boolean.Number以 ...

随机推荐

Java 10 的 10 个新特性，你颤抖了吗？
Java 9才发布几个月,很多玩意都没整明白,现在Java 10又快要来了.. 这时候我真尼玛想说:线上用的JDK 7 甚至JDK 6,JDK 8 还没用熟,JDK 9 才发布不久不知道啥玩意,JDK ...
【hadoop】细读MapReduce的工作原理
前言:中秋节有事外加休息了一天,今天晚上重新拾起Hadoop,但感觉自己有点烦躁,不知后续怎么选择学习Hadoop的方法. 干脆打开电脑,决定: 1.先将Hadoop的MapReduce和Yarn基本 ...
异常-ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException: Communications link failure
1 详细异常信息 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException: Communicat ...
12.自定义v-过渡动画前缀
代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
C#当中使用async和await
最近在写程序的时候,经常遇到大量需要异步访问的情况,但是对于async和await到底怎么写,还不是非常明确.于是参考<C#图解教程>了异步编程一节. 1.普通的程序怎么写? class ...
单播、广播和多播IP地址
除地址类别外,还可根据传输的消息特征将IP地址分为单播.广播或多播.主机使用IP地址进行一对一(单播).一对多(多播)或一对所有(广播)的通信. 1．单播单播地址是IP网络中最常见的.包含单播目标地 ...
JAVA遇见HTML——JSP篇:JSP内置对象（上）
JSP九大内置对象 JSP内置对象是Web容器创建的一组对象,不使用new关键就可以使用的内置对象. <% int[] value={60,70,80}; for(int i:value){ o ...
JVM之Java运行时数据区(线程共享区)
JVM运行时区域各线程共享的区域包括堆区和方法区. 堆区堆区最最主要的功能是存储对象实例[上篇也提到过],因此Java垃圾回收的主要战场就是在堆区,因此也有称为GC堆区.如果堆区的内存不够会出现Ou ...
[唐胡璐]Java操作Sql Server 2008数据库
下载Microsoft JDBC Driver for SQL Server 直接去官网下载即可：下载解压文件，得到sqljdbc.jar和sqljdbc4.jar。如果你使用的是jre1.7版本， ...
如何使用python异常---runtimeError方法
RuntimeError def ilove(name): if name=='陈培昌': print('i love {0}'.format(name)) elif name == '程劲': pr ...

OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射

OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射的更多相关文章

随机推荐

热门专题