OpenCL 存储器次序的验证

▶ 《OpenCL异构并行编程实战》P224 的代码，先放上来，坐等新设备到了再执行

 //kernel.cl

 __global volatile atomic_int globalAtom = ATOMIC_VAR_INIT();   // 全局原子对象

 __kernel void memoryOrderTest01(__global int *dst)

 {

     __local volatile atomic_int localAtom;                      // 本地原子对象

     atomic_init(&localAtom, );

     const int gid = get_global_id();

     work_group_barrier(CLK_LOCAL_MEM_FENCE);

     if (gid == )                                               // 0 号工作项尝试写入 1

     {

         atomic_store_explicit(&localAtom, , memory_order_seq_cst, memory_scope_work_group);

         atomic_store_explicit(&globalAtom, , memory_order_seq_cst, memory_scope_device);

     }

     //atomic_work_item_fence(CLK_LOCAL_MEM_FENCE, memory_order_acq_rel, memory_scope_work_group);

     if (gid == )

     {

         int a, count;

         for (a = , count = ; a ==  && count < ; count++)

             a = atomic_load_explicit(&localAtom, memory_order_seq_cst, memory_scope_work_group);

         dst[] = !!a;

         dst[] = count;

         for (count = ; a ==  && count < ; count++)

             a = atomic_load_explicit(&globalAtom, memory_order_seq_cst, memory_scope_device);

         dst[] = !!a;

     }

     work_group_barrier();// 必须添加，将 0 号工作项的副作用暴露给其他工作项

 }

 __kernel void memoryOrderTest02(__global int *dst)

 {

     __local volatile atomic_int localAtom;

     atomic_init(&localAtom, );

     const int gid = get_global_id();

     work_group_barrier(CLK_LOCAL_MEM_FENCE);

     if (gid == )

     {

         atomic_store(&localAtom, );

         atomic_store(&globalAtom, );

     }

     //atomic_work_item_fence(CLK_LOCAL_MEM_FENCE, memory_order_acq_rel, memory_scope_work_group);

     if (gid == )

     {

         int a, count;

         for (a = , count = ; a ==  && count < ; count++)

             a = atomic_load(&localAtom);

         dst[] = !!a;

         dst[] = count;

         for (count = ; a ==  && count < ; count++)

             a = atomic_load(&globalAtom);

         dst[] = !!a;

     }

     work_group_barrier();

 }

 //main.c

 #include <stdio.h>

 #include <stdlib.h>

 #include <cl.h>

 const char *sourceCode = "D:/Code/kernel.cl";

 int readSource(const char* kernelPath, char *source)// 读取文本文件，存储为 char *，返回代码长度

 {

     FILE *fp;

     long int size;

     //printf("readSource, Program file: %s\n", kernelPath);

     fopen_s(&fp, kernelPath, "rb");

     if (!fp)

     {

         printf("Open kernel file failed\n");

         exit(-);

     }

     if (fseek(fp, , SEEK_END) != )

     {

         printf("Seek end of file faildd\n");

         exit(-);

     }

     if ((size = ftell(fp)) < )

     {

         printf("Get file position failed\n");

         exit(-);

     }

     rewind(fp);

     if ((source = (char *)malloc(size + )) == NULL)

     {

         printf("Allocate space failed\n");

         exit(-);

     }

     fread(source, , size, fp);

     fclose(fp);

     source[size] = '\0';

     return size + ;

 }

 int main()

 {

     const int nElement = , dataSize = nElement * sizeof(float);

     int i, host[nElement] = {  };

     char info[];

     // 初始化平台

     cl_int status;

     cl_platform_id platform;

     clGetPlatformIDs(, &platform, NULL);

     cl_device_id device[];

     clGetDeviceIDs(platform, CL_DEVICE_TYPE_ALL, , device, NULL);

     cl_context_properties contextProp[] = { CL_CONTEXT_PLATFORM,(cl_context_properties)(platform),  };

     cl_context context = clCreateContext(contextProp, , device, NULL, contextProp, &status);

     cl_command_queue_properties queueProp = ;// useless

     cl_command_queue queue = clCreateCommandQueueWithProperties(context, device[], NULL, &status);    

     cl_mem buffer = clCreateBuffer(context, CL_MEM_WRITE_ONLY, dataSize, NULL, &status);

     char *source;

     size_t sourceLength = readSource(sourceCode, source);

     cl_program program = clCreateProgramWithSource(context, , &source, &sourceLength, &status);

     status = clBuildProgram(program, , device, "-cl-std=CL2.0", NULL, NULL);

     if (status)

     {

         clGetProgramBuildInfo(program, device[], CL_PROGRAM_BUILD_LOG, , info, NULL);

         printf("Build log:\n%s\n", info);

     }

     cl_kernel kernel = clCreateKernel(program, "memoryOrderTest", &status);

     clSetKernelArg(kernel, , sizeof(cl_mem), buffer);

     size_t globalSize = nElement, localSize = ;

     clEnqueueNDRangeKernel(queue, kernel, , NULL, &globalSize, &localSize, , NULL, NULL);

     clFinish(queue);

     clEnqueueReadBuffer(queue, buffer, CL_TRUE, , dataSize, host, , NULL, NULL);

     printf("Local memory result: %d, global memory result: %d, waiting count: %d\n", host[], host[], host[]);

     clReleaseContext(context);

     clReleaseCommandQueue(queue);

     clReleaseProgram(program);

     clReleaseKernel(kernel);

     clReleaseMemObject(buffer);

     getchar();

     return ;

 }

OpenCL 存储器次序的验证的更多相关文章

CUDA与OpenCL架构
CUDA与OpenCL架构目录 CUDA与OpenCL架构目录 1 GPU的体系结构 1.1 GPU简介 1.2 GPU与CPU的差异 2 CUDA架构 2.1 硬件架构 2.1.1 GPU困境 ...
[区块链] 共识算法之争（PBFT，Raft，PoW，PoS，DPoS，Ripple）
近几天对区块链中几种常见的共识机制(PBFT,Raft,PoW,PoS,DPoS,Ripple)进行了总结.尽量使用简单易懂语言,篇幅较大,想了解的可以只读每个算法介绍中前边的原理.本篇文章主要参考& ...
使用Powermock和mockito来进行单元测试
转载:http://blog.csdn.net/u013428664/article/details/44095889 简介 Mockito是一个流行的Mocking框架.它使用起来简单,学习成本很低 ...
Nepxion Discovery【探索】微服务企业级解决方案
Nepxion Discovery[探索]微服务企业级解决方案] Nepxion Discovery[探索]使用指南,基于Spring Cloud Greenwich版.Finchley版和Hoxto ...
ISO/IEC 9899:2011 条款6.5.16——赋值操作符
6.5.16 赋值操作符语法 1.assignment-expression: conditional-expression unary-expression assignment-opera ...
ISO/IEC 9899:2011 条款6.5.2——后缀操作符
6.5.2 后缀操作符语法 1.postfix-expression: primary-expression postfix-expression [ expression ] p ...
区块链知识博文1：共识算法之争（PBFT，Raft，PoW，PoS，DPoS，Ripple）
注:这是本人读到的关于共识算法最全和最好的分享博文,系统的介绍了拜占庭容错技术以及共识算法的原理和常用共识算法,原文链接请见后. 目录一.拜占庭容错技术(Byzantine Fault Tolera ...
OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射
随着OpenCL的普及,现在有越来越多的移动设备以及平板.超级本等都支持OpenCL异构计算.而这些设备与桌面计算机.服务器相比而言性能不是占主要因素的,反而能耗更受人关注.因此,这些移动设备上的GP ...
关于OpenCL中三重循环的执行次序
源自OpenGPU社区的一个帖子的讨论: 一个有意思的openCL问题

随机推荐

HDU 1084：What Is Your Grade?
Problem Description "Point, point, life of student!" This is a ballad(歌谣)well known in col ...
HTML5和CSS3阶段，我是如何学习的？
经过一个月的学习,我收获了许多,今天的测验是做一个企业中文网站,令我自己感到吃惊的是,我前前后后用了4个小时就完成了,这在一个月前根本不可能,因为对布局属性的理解还不够深刻,常常会在调试中浪费大量时间 ...
Maze dfs倒行
Pavel loves grid mazes. A grid maze is an n × m rectangle maze where each cell is either empty, or i ...
自制数据结构（容器）-java开发用的最多的ArrayList和HashMap
public class MyArrayList<E> { private int capacity = 10; private int size = 0; private E[] val ...
k8s helm 可视化UI 管理工具 monocular部署试用
官方建议是用 helm 进行安装,但是helm 有点费事(各种原因...) 所以使用官方说的使用docker-compose 但是默认官方的compose 跑起来还是真费事,经过调整,修改了一版支持 ...
IE 10 如何设置支持CRM4 正常浏览
通过工具—> 选择兼容性视图就可以了.具体如下图:
FPGA将加速今日新型态数据中心的主流应用
在这个强调智能与联网的时代,可编程逻辑栅阵列 (FPGA)已经成为一个重要且不可或缺的元件.以全球500亿个联网设备,一年所产生的数据量将不计其数.从数据中心.5G通讯.虚拟网络功能,到嵌入式系统,F ...
socket编程时SIGPIPE信号的处理
如果在write调用期间对方关闭连接,视时间顺序的不同有以下几种情况: 1. 刚好在write调用之前对方关闭: write返回失败,同时产生SIGPIPE. 2. write调用过程中对方关闭: 返 ...
JavaScript中的继承模式总结（九）
一.总结: //js中的几种继承 //原型链的问题,包含引用类型的原型属性会被实例共享,子类型无法给超类型传递参数 function SuperType() { this.colors = [&quo ...
【spring框架】spring获取webapplicationcontext,applicationcontext几种方法详解--（转）
方法一:在初始化时保存ApplicationContext对象代码:ApplicationContext ac = new FileSystemXmlApplicationContext(" ...

OpenCL 存储器次序的验证

OpenCL 存储器次序的验证的更多相关文章

随机推荐

热门专题