OpenCl入门——实现简单卷积

现在的卷积实现无非是那么几种：直接卷积、im2col+gemm、局部gemm、wingrod、FFT。如果直接卷积的话，其实kernel函数是比较好实现。以下代码参考至《OpenCL Programing Guide》，主要是main函数各种构造比较麻烦，个人感觉，OpenCL为了追求平台的移植性，使用起来实在是太不方便了。(代码仅表示思路，未测试)

Convolution.cl:

//Convolution.cl

__kernel void convolve(const __global uint * const input, __constant uint *const mask, __global uint * const output, const int inputWidth, const int maskWidth)

{

    const int x = get_global_id();

    const int y = get_global_id();

    uint sum =;

    for(int r =;r<maskWidth;r++)

    {

        const int idxIntmp = (y +r) *inputWidth +x ;

        for(int c = ; c<maskWidth;c++)

        {

            sum +=mask[(r*maskWidth) +c] * input[idxIntmp +c];

        }

    }

    outpu[y* get_global_size() +x] = sum;

}

//Convolution.cpp

//Convolution.cpp

#include <iostream>

#include <fstream>

#include <sstream>

#include <string>

#include <CL/cl.h>

//Constants

const unsigned int inputSignalWidth = ;

const unsigned int inputSignalHeight= ;

cl_uint inputSignal[inputSignalWidth][inputSignalHeight] =

{

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  },

    {, , , , , , ,  }

};

const unsigned int outputSignalWidth = ;

const unsigned int outputSignalHeight= ;

cl_uint ouputSignal[outputSignalWidth][outputSignalHeight];

const unsigned int maskWidth = ;

const unsigned int maskHeight= ;

cl_uint mask[maskWidth][maskHeight] =

{

    {, , },

    {, , },

    {, , }

};

inline void checkErr(cl_int err, const char* name)

{

    if(err != CL_SUCCESS)

    {

        std::cerr <<"ERROR: "<< name

        <<" (" << err << ")"<<std::endl;

        exit(EXIT_FAILURE);

    }

}

void CL_CALLBACK contextCallback(const char * errInfo, const void * private_info, size_t cb, void * user_data)

{

    std::cout << "Error occurred during context user: "<< errInfo << std::endl;

    exit(EXIT_FAILURE);

}

int main(int argc, char** argv)

{

    cl_int errNum;

    cl_uint numPlatforms;

    cl_uint numDevices;

    cl_platform_id * platformIDs;

    cl_context context =NULL;

    cl_command_queue queue;

    cl_program program;

    cl_kernel kernel;

    cl_mem inputSignalBuffer;

    cl_mem outputSignalBuffer;

    cl_mem maskBuffer;

    errNum = clGetPlatformIDs(, NULL, &numPlatforms);

    checkErr( (errNum != CL_SUCCESS )? errNum: (numPlatforms <=  ? -: CL_SUCCESS),"clGetPlatformIDs");

    deviceIDs = NULL;

    cl_uint i;

    for(i =; i <numPlatforms; i++)

    {

        errNum = clGetDeviceIDs(platformIDs[i], CL_DEVICE_TYPE_CPU, , NULL, &numDevices);

        if(errNum != CL_SUCCESS && errNum !=CL_DEVICE_NOT_FOUND)

        {

            checkErr(errNum, "clGetDeviceIDs");

        }

        else if(numDevices > )

        {

            deviceIDs = (cl_device_id *)alloca(sizeof(cl_device_id) * numDevices);

            break;

        }

    }

    cl_context_properties contextProperties[] =

    {

        CL_CONTEXT_PLATFORM, (cl_context_properties)platformIDs[i],

    };

    context = clCreateContext(contextProperties, numDevices, deviceIDs,&contextCallback, NULL, &errNum);

    checkErr(errNum, "clCreateContext");

    std::ifstream srcFile("Convolution.cl");

    std::string srcProg(std::istreambuf_iterator<char>(srcFile),(std::istreambuf_iterator<char>()));

    const char * src = srcProg.c_str();

    size_t length = srcProg.length();

    program = clCreateProgramWithSource(context, , &src, &length, &errNum);

    checkErr(errNum, "clCreateProgramWithSource");

    errNum = clBuildProgram(program, numDevices, deviceIDs, NULL, NULL, NULL);

    checkErr(errNum, "clBuildProgram");

    kernel = clCreateKernel(program, "convolve", &errNum);

    checkErr(errNum, "clCreateKernel");

    inputSignalBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, sizeof(cl_uint) * inputSignalHeight * inputSignalWidth,

        static_cast<void*> (inputSignal), &errNum);

    checkErr(errNum, "clCreateBuffer(inputSignal)");

    maskBuffer = clCreateBuffer(context,CL_MEM_READ_ONLY| CL_MEM_COPY_HOST_PTR, sizeof(cl_uint)* maskHeight *maskWidth, static_cast<void*>(mask), &errNum);

    checkErr(errNum, "clCreateBuffer(mask)");

    outputSignalBuffer= clCreateBuffer(context,CL_MEM_WRITE_ONLY ,sizeof(cl_uint)* outputSignalHeight *outputSignalWidth, NULL, &errNum);

    checkErr(errNum, "clCreateBuffer(outputSignal)");

    queue = clCreateCommandQueue(context, deviceIDs[], , &errNum);

    checkErr(errNum, "clCreateCommandQueue");

    errNum = clSetKernelArg(kernel, , sizeof(cl_mem), &inputSignalBuffer);

    errNum |=clSetKernelArg(kernel, , sizeof(cl_mem), &maskBuffer);

    errNum |=clSetKernelArg(kernel, , sizeof(cl_mem), &outputSignalBuffer);

    errNum |=clSetKernelArg(kernel, , sizeof(cl_uint),&inputSignalWidth);

    errNum |=clSetKernelArg(kernel, , sizeof(cl_uint),&maskWidth);

    checkErr(errNum, "clSetKernelArg");

    const size_t globalWorkSize[] = {outputSignalWidth *outputSignalHeight};

    const size_t localWorkSize[] = {};

    errNum = clEnqueueNDRangeKernel(queue,kernel, , NULL, globalWorkSize, localWorkSize, , NULL, NULL);

    checkErr(errNum, "clEnqueueNDRangeKernel");

    errNum = clEnqueueReadBuffer(queue, outputSignalBuffer,CL_TRUE, , sizeof(cl_uint)*outputSignalHeight*outputSignalWidth, outputSignal, , NULL, NULL);

    checkErr(errNum, "clEnqueueReadBuffer");

    return ;

}

OpenCl入门——实现简单卷积的更多相关文章

OpenCL入门：(二：用GPU计算两个数组和)
本文编写一个计算两个数组和的程序,用CPU和GPU分别运算,计算运算时间,并且校验最后的运算结果.文中代码偏多,原理建议阅读下面文章,文中介绍了OpenCL相关名词概念. http://opencl. ...
踢爆IT劣书出版黑幕——由清华大学出版社之《C语言入门很简单》想到的（1）
1.前言与作者首先声明,我是由于非常偶然的机会获得<C语言入门很简单>这本书的,绝对不是买的.买这种书实在丢不起那人. 去年这书刚出版时,在CU论坛举行试读推广,我当时随口说了几句(没说 ...
[电子书] 《Android编程入门很简单》
<Android编程入门很简单>是一本与众不同的Android学习读物,是一本化繁为简,把抽象问题具体化,把复杂问题简单化的书.本书避免出现云山雾罩.晦涩难懂的讲解,代之以轻松活泼.由浅入 ...
Redis入门很简单之六【Jedis常见操作】
Redis入门很简单之六[Jedis常见操作] http://www.tuicool.com/articles/vaqABb http://www.cnblogs.com/stephen-liu74/ ...
《Mysql 入门很简单》（读后感①）
下载完整版<Mysql 入门很简单>,点击这里~: http://files.cnblogs.com/files/zhengyeye/MySQL%E5%85%A5%E9%97%A8%E5% ...
Hibernate入门2.简单的项目开发实例
Hibernate入门2.简单的项目开发实例这一节通过一个简单的项目学习Hibernate项目的配置代码下载 : 链接: http://pan.baidu.com/s/1zlgjl 密码: p34 ...
资深架构师Sum的故事：正则！入门就是这样简单
| 故事背景职场如战场!Sum带领三个小队友用了两周,成功把代理功能给干出来了.如果说产品经理是最魔鬼的指挥官,那测试就是最魔鬼的教官.这两周,让Sum深深领略了什么是X市的日出. 不过话又说回来, ...
Redis入门很简单之七【使用Jedis实现客户端Sharding】
Redis入门很简单之七[使用Jedis实现客户端Sharding] 博客分类: NoSQL/Redis/MongoDB redisjedisspringsharding分片 <一>. 背 ...
Redis入门很简单之五【Jedis和Spring的整合】
Redis入门很简单之五[Jedis和Spring的整合] 博客分类: NoSQL/Redis/MongoDB redisnosql缓存jedisspring 在上一篇文章中,简单介绍了Jedis的 ...

随机推荐

实用的在线预览数据字典的工具（php编写）
前言无论是刚接手新项目,或者是维护老项目,有一个方便的数据字典可用是最棒哒! 本文是我为了方便使用数据字典而写的代码. 代码无版权,随便使用. 拷贝代码后,只需修改数据库名,主机,用户名,密码,开箱 ...
c++ throw异常(学习)
#include <iostream>#include <stdio.h> using namespace std; void my_copy(const char* src_ ...
linux简单命令3---帮助命令
1:帮助命令:man 命令: 2:这个帮助用的比较多(还是中文):命令 --help 3:shell帮助 4:详细命令(比man更详细)帮助,用的少,比较麻烦:info
delphi7 clientdataset 详解
delphi Midas SQLServer的自增字段的处理1.新增时,表中有自增字段,但是不希望用Refresh,直接ApplyUpdates直接看见自增字段的值在DataSetProvider.A ...
HBase管理与监控——统计表行数
背景 HBase统计 RowCount 的方法有好几种,并且执行效率差别巨大,以下3种方法效率依次提高. 一.hbase-shell的count命令这是最简单直接的操作,但是执行效率非常低,适用 ...
getchwd() 函数返回当前工作目录。
getchwd() 函数返回当前工作目录.
mac Access denied for user 'root'@'localhost' (using password: YES)
1:苹果->系统偏好设置->最下边点mysql 在弹出页面中关闭mysql服务 2: Start it in safe mode 进入终端输入: cd /usr/local/mysql ...
Windows核心编程随笔
最近在学习Windows底层原理,准备写个系列文章分享给大家,Michael Li(微软实习期间的Mentor,为人超好)在知乎回答过一些关于学习Windows原理的书籍推荐,大家可以拜读其中一本来入 ...
javaweb期末项目-stage2-项目创建、配置、接口设计和功能实现（含核心源码）
项目的创建.配置.接口设计和功能实现(含核心代码).rar--下载说明:解压密码为袁老师的全名拼音(全小写) 相关链接: 项目结构:https://www.cnblogs.com/formyfish ...
Matlab求微分方程的符号解1
一.常微分方程的求解例1. 例2. 例3. 通常我们使用syms 和dsolve来求解: first: second:表示 third:如果有必要功能函数diff可以完成一元或多元函数任意阶数的微 ...

OpenCl入门——实现简单卷积

OpenCl入门——实现简单卷积的更多相关文章

随机推荐

热门专题