GPGPU OpenCL Reduction操作与group同步

Reduction操作：规约操作就是由多个数生成一个数，如求最大值、最小值、向量点积、求和等操作，都属于这一类操作。

有大量数据的情况下，使用GPU进行任务并行与数据并行，可以收到可好的效果。

group同步：OpenCL只提供了工作组内的各线程之间的同步机制，并没有提供所有线程的同步。提供组内item-work同步的方法：

　　void barrier (cl_mem_fence_flags flags)

　　参数说明：cl_mem_fence_flags 可以取CLK_LOCAL_MEM_FENCE、CLK_GLOBAL_MEM_FENCE

　　函数说明：(1)一个work-group中所有work-item遇到barrier方法，都要等待其他work-item也到达该语句，才能执行后面的程序；

　　　　　　　 (2)还可以组内的work-item对local or global memory的顺序读写操作。

如下图中每个大框表示任务并行、每个group线程；框中的计算是数据并行、每个item-work线程：

作为练习，给出个完整的使用OpenCL计算整数序列求和，在数据并行中使用Local Memory 加速，group组内并行同步使用CLK_LOCAL_MEM_FENCE。

程序实例(整数序列求和)：

1.核函数(Own_Reduction_Kernels.cl)：

 __kernel

 void

 reduce(__global uint4* input, __global uint4* output, int NUM)

 {

     NUM = NUM / ;    //每四个数为一个整体uint4。

     unsigned int tid = get_local_id();

     unsigned int localSize = get_local_size();

     unsigned int globalSize = get_global_size();

     uint4 res=(uint4){,,,};

     __local uint4 resArray[];

     unsigned int i = get_global_id();

     while(i < NUM)

     {

         res+=input[i];

         i+=globalSize;

     }

     resArray[tid]=res;    //将每个work-item计算结果保存到对应__local memory中

     barrier(CLK_LOCAL_MEM_FENCE);

     // do reduction in shared mem

     for(unsigned int s = localSize >> ; s > ; s >>= )

     {

         if(tid < s)

         {

             resArray[tid] += resArray[tid + s];

         }

         barrier(CLK_LOCAL_MEM_FENCE);

     }

     // write result for this block to global mem

     if(tid == )

         output[get_group_id()] = resArray[];

 }

2.tool.h 、tool.cpp

见：http://www.cnblogs.com/xudong-bupt/p/3582780.html

3.Reduction.cpp

 #include <CL/cl.h>

 #include "tool.h"

 #include <string.h>

 #include <stdio.h>

 #include <stdlib.h>

 #include <iostream>

 #include <string>

 #include <fstream>

 using namespace std;

 int isVerify(int NUM,int groupNUM,int *res)    //校验结果

 {

        int sum1 = (NUM+)*NUM/;

     int sum2 = ;

     for(int i = ;i < groupNUM*; i++)

         sum2 += res[i];

     if(sum1 == sum2)

         return ;

     return -;

 }

 void isStatusOK(cl_int status)    //判断状态码

 {

     if(status == CL_SUCCESS)

         cout<<"RIGHT"<<endl;

     else

         cout<<"ERROR"<<endl;

 }

 int main(int argc, char* argv[])

 {

     cl_int    status;

     /**Step 1: Getting platforms and choose an available one(first).*/

     cl_platform_id platform;

     getPlatform(platform);

     /**Step 2:Query the platform and choose the first GPU device if has one.*/

     cl_device_id *devices=getCl_device_id(platform);

     /**Step 3: Create context.*/

     cl_context context = clCreateContext(NULL,, devices,NULL,NULL,NULL);

     /**Step 4: Creating command queue associate with the context.*/

     cl_command_queue commandQueue = clCreateCommandQueue(context, devices[], , NULL);

     /**Step 5: Create program object */

     const char *filename = "Own_Reduction_Kernels.cl";

     string sourceStr;

     status = convertToString(filename, sourceStr);

     const char *source = sourceStr.c_str();

     size_t sourceSize[] = {strlen(source)};

     cl_program program = clCreateProgramWithSource(context, , &source, sourceSize, NULL);

     /**Step 6: Build program. */

     status=clBuildProgram(program, ,devices,NULL,NULL,NULL);

     /**Step 7: Initial input,output for the host and create memory objects for the kernel*/

     int NUM=;    //6400*4

     size_t global_work_size[] = {};  ///

     size_t local_work_size[]={};    ///256 PE

     size_t groupNUM=global_work_size[]/local_work_size[];

     int* input = new int[NUM];

     for(int i=;i<NUM;i++)

         input[i]=i+;

     int* output = new int[(global_work_size[]/local_work_size[])*];

     cl_mem inputBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY|CL_MEM_COPY_HOST_PTR, (NUM) * sizeof(int),(void *) input, NULL);

     cl_mem outputBuffer = clCreateBuffer(context, CL_MEM_WRITE_ONLY , groupNUM** sizeof(int), NULL, NULL);

     /**Step 8: Create kernel object */

     cl_kernel kernel = clCreateKernel(program,"reduce", NULL);

     /**Step 9: Sets Kernel arguments.*/

     status = clSetKernelArg(kernel, , sizeof(cl_mem), (void *)&inputBuffer);

     status = clSetKernelArg(kernel, , sizeof(cl_mem), (void *)&outputBuffer);

     status = clSetKernelArg(kernel, , sizeof(int), &NUM);

     /**Step 10: Running the kernel.*/

     cl_event enentPoint;

     status = clEnqueueNDRangeKernel(commandQueue, kernel, , NULL, global_work_size, local_work_size, , NULL, &enentPoint);

     clWaitForEvents(,&enentPoint); ///wait

     clReleaseEvent(enentPoint);

     isStatusOK(status);

     /**Step 11: Read the cout put back to host memory.*/

     status = clEnqueueReadBuffer(commandQueue, outputBuffer, CL_TRUE, ,groupNUM* * sizeof(int), output, , NULL, NULL);

     isStatusOK(status);

     if(isVerify(NUM, groupNUM ,output) == )

         cout<<"The result is right!!!"<<endl;

     else

         cout<<"The result is wrong!!!"<<endl;

     /**Step 12: Clean the resources.*/

     status = clReleaseKernel(kernel);//*Release kernel.

     status = clReleaseProgram(program);    //Release the program object.

     status = clReleaseMemObject(inputBuffer);//Release mem object.

     status = clReleaseMemObject(outputBuffer);

     status = clReleaseCommandQueue(commandQueue);//Release  Command queue.

     status = clReleaseContext(context);//Release context.

     free(input);

     free(output);

     free(devices);

     return ;

 }

GPGPU OpenCL Reduction操作与group同步的更多相关文章

【并行计算-CUDA开发】GPGPU OpenCL/CUDA 高性能编程的10大注意事项
GPGPU OpenCL/CUDA 高性能编程的10大注意事项 1.展开循环如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数.但是同时也不能使得kernel代码太大. 循环展 ...
IO操作概念。同步、异步、阻塞、非阻塞
“一个IO操作其实分成了两个步骤:发起IO请求和实际的IO操作. 同步IO和异步IO的区别就在于第二个步骤是否阻塞,如果实际的IO读写阻塞请求进程,那么就是同步IO. 阻塞IO和非阻塞IO的区别在于第 ...
树莓派开发笔记（十七）：树莓派4B+上Qt多用户连接操作Mysql数据库同步（单条数据悲观锁）
前言安装了mysq数据库,最终时为了实现在一个树莓派上实现多用户多进程操作的同步问题,避免数据并发出现一些错误,本篇安装了远程服务并且讲述了使用Qt进行悲观锁for update操作,命令行进行 ...
GPGPU OpenCL 精确字符串查找
字符串查找是信息安全.信息过滤领域的重要操作,尤其是对大文本的实时处理.这篇作为实例,使用GPU OpenCL进行精确模式串查找. 1.加速方法 (1)将少量常量数据,如模式串长度.文本长度等,保存在 ...
GPGPU OpenCL编程步骤与简单实例
http://www.cnblogs.com/xudong-bupt/p/3582780.html 1.OpenCL概念 OpenCL是一个为异构平台编写程序的框架,此异构平台可由CPU.GPU或其 ...
GPGPU OpenCL/CUDA 高性能编程的10大注意事项
转载自:http://hc.csdn.net/contents/content_details?type=1&id=341 1.展开循环如果提前知道了循环的次数,可以进行循环展开,这样省去了 ...
OC 线程操作 - GCD使用 -同步函数，异步函数，串行队列，并发队列
- (void)touchesBegan:(NSSet<UITouch *> *)touches withEvent:(UIEvent *)event{ // GCD 开几条线程并不是我们 ...
MongoDB学习笔记——聚合操作之group,distinct,count
单独的聚合命令(group,distinct,count) 单独聚合命令比aggregate性能低,比Map-reduce灵活度低:但是可以节省几行javascript代码,后面那句话我自己加的,哈 ...
mongdb高级操作（group by ）
首先介绍哈方法 /** * 利用java驱动自带函数分组查询 * @param key 用来分组文档的字段 [group by key] * @param cond 执行过滤的条件 [where na ...

随机推荐

Loadrunner中cookie解释与用法
loadrunner对于cookie的处理loadrunner中与cookie处理相关的常用函数如下: web_add_cookie():添加新的cookie或者修改已经存在的cookie web_r ...
bzoj 1877 最小费用流
思路:挺裸的费用流,拆拆点就好啦. #include<bits/stdc++.h> #define LL long long #define fi first #define se sec ...
bzoj 1116
思路:每个连通块都判是否有环. #include<bits/stdc++.h> #define LL long long #define fi first #define se secon ...
牛客网牛客小白月赛12 B.华华教月月做数学-A^B mod P-快速幂+快速乘
链接:https://ac.nowcoder.com/acm/contest/392/B来源:牛客网华华教月月做数学时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 32768K,其 ...
(15) go 方法
scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署
上篇我们实现了分布式爬取,本篇来说下爬虫的部署. 分析:我们上节实现的分布式爬虫,需要把爬虫打包,上传到每个远程主机,然后解压后执行爬虫程序.这样做运行爬虫也可以,只不过如果以后爬虫有修改,需要重新修 ...
为什么ArrayList remove报错
不报错 List<String> userNames = new ArrayList<String>() {{ add("Hollis"); add(&qu ...
java短信接口调用
java短信接口调用之前一直在一个传统的单位上班好多听容易的技术都没接触过,即使有时候想搞一搞类似于支付宝支付,短信接口调用,微信公众号,小程序之类等功能,一直有心无力终于跳槽了,估计是氛围的原因吧 ...
NetCore在Centos7上部署和Nginx集群部署访问
NetCore在Linux上部署工具:WMWare虚拟机,Wmware12,CentOS7ISO镜像,VS2017 1.安装虚拟机,过程略,网上一搜一大把 2.用VS2017建一个NetCore的W ...
PHP函数声明（二）
PHP的变量的范围 1.局部变量:在函数中声明的变量就是局部变量,只能在自己的函数内部使用. 2.全局变量:函数外声明,在变量声明以后的,直到整个脚本结束前都可以使用,包括在函数中和{}中都可以使用 ...

GPGPU OpenCL Reduction操作与group同步

GPGPU OpenCL Reduction操作与group同步的更多相关文章

随机推荐

热门专题