OpenCl入门getting-started-with-opencl-and-gpu-computing

原文来自于：getting-started-with-opencl-and-gpu-computing/

对整个程序的注释：http://www.kimicat.com/opencl-1/opencl-jiao-xue-yi

但是对CUDA比较熟悉的用户来说，应该不需要看注释就能理解全部的程序

main.cpp

 #include <stdio.h>

 #include <stdlib.h>

 #include <CL/cl.h>

 #define MAX_SOURCE_SIZE (0x100000)

 int main(void)

 {

         // Create the two input vectors

         int i;

         const int LIST_SIZE = ;

         int *A = (int*) malloc(sizeof(int) * LIST_SIZE);

         int *B = (int*) malloc(sizeof(int) * LIST_SIZE);

         for (i = ; i < LIST_SIZE; i++)

         {

                 A[i] = i;

                 B[i] = LIST_SIZE - i;

         }

         // Load the kernel source code into the array source_str

         FILE *fp;

         char *source_str;

         size_t source_size;

         fp = fopen("vector_add_kernel.cl", "r");

         if (!fp)

         {

                 fprintf(stderr, "Failed to load kernel.\n");

                 exit();

         }

         source_str = (char*) malloc(MAX_SOURCE_SIZE);

         source_size = fread(source_str, , MAX_SOURCE_SIZE, fp);

         fclose(fp);

         // Get platform and device information

         cl_platform_id platform_id = NULL;

         cl_device_id device_id = NULL;

         cl_uint ret_num_devices;

         cl_uint ret_num_platforms;

         cl_int ret = clGetPlatformIDs(, &platform_id, &ret_num_platforms);

         ret = clGetDeviceIDs(platform_id, CL_DEVICE_TYPE_DEFAULT, , &device_id,&ret_num_devices);

         // Create an OpenCL context

         cl_context context = clCreateContext(NULL, , &device_id, NULL, NULL, &ret);

         // Create a command queue

         cl_command_queue command_queue = clCreateCommandQueue(context, device_id, , &ret);

         // Create memory buffers on the device for each vector

         cl_mem a_mem_obj = clCreateBuffer(context, CL_MEM_READ_ONLY,LIST_SIZE * sizeof(int), NULL, &ret);

         cl_mem b_mem_obj = clCreateBuffer(context, CL_MEM_READ_ONLY,LIST_SIZE * sizeof(int), NULL, &ret);

         cl_mem c_mem_obj = clCreateBuffer(context, CL_MEM_WRITE_ONLY,LIST_SIZE * sizeof(int), NULL, &ret);

         // Copy the lists A and B to their respective memory buffers

         ret = clEnqueueWriteBuffer(command_queue, a_mem_obj, CL_TRUE, ,LIST_SIZE * sizeof(int), A, , NULL, NULL);

         ret = clEnqueueWriteBuffer(command_queue, b_mem_obj, CL_TRUE, ,LIST_SIZE * sizeof(int), B, , NULL, NULL);

         // Create a program from the kernel source

         cl_program program = clCreateProgramWithSource(context, ,(const char **) &source_str, (const size_t *) &source_size, &ret);

         // Build the program

         ret = clBuildProgram(program, , &device_id, NULL, NULL, NULL);

         // Create the OpenCL kernel

         cl_kernel kernel = clCreateKernel(program, "vector_add", &ret);

         // Set the arguments of the kernel

         ret = clSetKernelArg(kernel, , sizeof(cl_mem), (void *) &a_mem_obj);

         ret = clSetKernelArg(kernel, , sizeof(cl_mem), (void *) &b_mem_obj);

         ret = clSetKernelArg(kernel, , sizeof(cl_mem), (void *) &c_mem_obj);

         // Execute the OpenCL kernel on the list

         size_t global_item_size = LIST_SIZE; // Process the entire lists

         size_t local_item_size = ; // Process one item at a time

         ret = clEnqueueNDRangeKernel(command_queue, kernel, , NULL,&global_item_size, &local_item_size, , NULL, NULL);

         // Read the memory buffer C on the device to the local variable C

         int *C = (int*) malloc(sizeof(int) * LIST_SIZE);

         ret = clEnqueueReadBuffer(command_queue, c_mem_obj, CL_TRUE, ,LIST_SIZE * sizeof(int), C, , NULL, NULL);

         // Display the result to the screen

         for (i = ; i < LIST_SIZE; i++)

                 printf("%d + %d = %d\n", A[i], B[i], C[i]);

         // Clean up

         ret = clFlush(command_queue);

         ret = clFinish(command_queue);

         ret = clReleaseKernel(kernel);

         ret = clReleaseProgram(program);

         ret = clReleaseMemObject(a_mem_obj);

         ret = clReleaseMemObject(b_mem_obj);

         ret = clReleaseMemObject(c_mem_obj);

         ret = clReleaseCommandQueue(command_queue);

         ret = clReleaseContext(context);

         free(A);

         free(B);

         free(C);

         return ;

 }

vector_add_kernel.cl

__kernel void vector_add(__global const int *A, __global const int *B, __global int *C)

{

    // Get the index of the current element to be processed

    int i = get_global_id();

    // Do the operation

    C[i] = A[i] + B[i];

}

之前已经安装好了CUDA的运行环境，这里作者说使用g++ -I/usr/local/cuda/include -L/usr/local/cuda/lib64 -lOpenCL main.cpp -o openclApp命令来执行，结果提示

'clGetPlatformIDs' undefined reference，但是我的include和lib都是正常的，因此，调整编译命令为：

g++ main.cpp -o openclApp -I/usr/local/cuda/include -L/usr/local/cuda/lib64 -lOpenCL

编译通过并运行通过，因此gcc编译选项的顺序也对程序有一定影响（理论上不应该有这个问题）。但是，这个问题使用clang编译就没有任何影响。

OpenCl入门getting-started-with-opencl-and-gpu-computing的更多相关文章

OpenCL入门：(二：用GPU计算两个数组和)
本文编写一个计算两个数组和的程序,用CPU和GPU分别运算,计算运算时间,并且校验最后的运算结果.文中代码偏多,原理建议阅读下面文章,文中介绍了OpenCL相关名词概念. http://opencl. ...
OpenCL入门：(三：GPU内存结构和性能优化)
如果我们需要优化kernel程序,我们必须知道一些GPU的底层知识,本文简单介绍一下GPU内存相关和线程调度知识,并且用一个小示例演示如何简单根据内存结构优化. 一.GPU总线寻址和合并内存访问假设 ...
OpenCL入门：(一：Intel核心显卡OpenCL环境搭建)
组装的电脑没带独立显卡,用的是CPU自带的核显,型号是Intel HD Graphics 530,关于显卡是否可以使用OpenCL,可以下载GPU-Z软件查看. 本文在Windows 10 64位系统 ...
OpenCL入门
初入OpenCL,做个记录. 在Windows下开发OpenCL程序,必须先下载OpenCL的SDK,现在AMD,NVIDIA,Intel均提供各自的OpenCL库,基本是大同小异.安装好SDK后新建 ...
OpenCl入门——实现简单卷积
现在的卷积实现无非是那么几种:直接卷积.im2col+gemm.局部gemm.wingrod.FFT.如果直接卷积的话,其实kernel函数是比较好实现.以下代码参考至<OpenCL Progr ...
编译GDAL支持OpenCL使用GPU加速
前言 GDAL库中提供的gdalwarp支持各种高性能的图像重采样算法,图像重采样算法广泛应用于图像校正,重投影,裁切,镶嵌等算法中,而且对于这些算法来说,计算坐标变换的运算量是相当少的,绝大部分运算 ...
安卓手机GPU OpenCL总结（转）
前段时间,把市面上手机GPU OpenCL支持情况做了一个总结.总结如下: 目前,手机 GPU 市面有四个公司产品:Qualcomm, Imagination Technologies,ARM, Vi ...
OpenCL与CUDA，CPU与GPU
OpenCL OpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式.免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计 ...
《OpenCL异构并行编程实战》补充笔记散点，第一至四章
▶ 总体印象:适合 OpenCL 入门的书,有丰富的代码和说明,例子较为简单.先把 OpenCL 代码的基本结构(平台 → 设备 → 上下文 → 命令队列 → 创建缓冲区 → 读写缓冲区 → 编译代码 ...

随机推荐

MySQL、sqlalchemy、pymysql、mysqldb、DBAPI之间关系梳理（终于明白了）
MySQL.sqlalchemy.pymysql.mysqldb.DBAPI之间关系梳理(终于明白了) python3不再支持mysqldb 请用pymysql和mysql.connector 问题背 ...
003-jdk-数据结构-HashMap、HashTable、ConcurrentHashMap、TreeMap、LinkedHashMap、Set
一.Map概述 Map:“键值”对映射的抽象接口.该映射不包括重复的键,一个键对应一个值. 1.1.HashTable[不常用] 基于“拉链法”实现的散列表. 底层数组+链表实现,无论key还是val ...
PowerDesigner设置code和name不联动的方法
按照如下设置即可: 具体步骤:菜单:Tools--General Options--Name to Code mirroring的复选框不要选中.
js的event详解
event代表事件的状态,例如触发event对象的元素.鼠标的位置及状态.按下的键等等.event对象只在事件发生的过程中才有效.event的某些属性只对特定的事件有意义.比如,fromElement ...
IOS上的 Audio Memos SE 如何分享和传输录音到电脑？
Audio Memos SE 是 Audio Memos 的精简版 ,顾名思义就是少了很多实用功能.当初下载这个就是因为广告比较少一些,没有全屏幕的广告. 好了,录了音,想分享和传到电脑要怎么弄呢? ...
shell学习笔记1-文件安全与权限
1,创建文件的用户和他所属的组拥有该文件,文件的属主可以设定谁具有读.写.执行该文件的权限,根用户可以改变任何普通用户的设置. 2,一个文件一经创建,就具有三种访问权限:读(可以显示该文件的内容).写 ...
TF-IDF算法之关键词提取
(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的 ...
Java代码是怎么运行的
前言.... 作为一名 Java 程序员,你应该知道,Java 代码有很多种不同的运行方式.比如说可以在开发工具中运行,可以双击执行 jar 文件运行,也可以在命令行中运行,甚至可以在网页中运行.当然 ...
layer.msg弹窗后没有自动关闭——问题解决
layer.msg弹窗后没有自动关闭,里面也没有配time: -1 layer.msg("信息体", {time: -1}); 后面发现是jquer和layer版本不对,之前自己用 ...
[转帖]关于USB3.0以及type-C
忘记来源页面了.. 但是昨天晚上 usb 4.0 发布了跟雷电C 安全一样的标准双向40gb 的带宽. 而且以后只有usb type-C的接口了. 我们办公机器上面的 typeC 同事用 ngf ...

OpenCl入门getting-started-with-opencl-and-gpu-computing

OpenCl入门getting-started-with-opencl-and-gpu-computing的更多相关文章

随机推荐

热门专题