GPU的并行运算能力远超CPU,有时候我们会需要用到超大数据并行运算,可以考虑用GPU实现,这是一篇C#调用GPU进行运算的入门教程.

1: 下载相关的库:

https://sourceforge.net/projects/openclnet/

看起来已经N久没更新了, 不过没关系,这只是API声明和参数,opencl本身是有在更新的.

里面有源码也有DLL,可以引用DLL,也可以直接把源码添加到工程使用.(建议直接添加代码...)

*** 需要注意的是 ***:自己建立的工程有个默认的Program类,要改成别的名字,不然会和这里面一个同名的类冲突....

2:建立工程

打开VS建立一个C#控制台工程,Program类改名为MainProgram,添加OpenCL.Net源码引用

项目属性里改为[允许不安全代码]:

3:在MainProgram里声明引用:

using OpenCLNet;

using CL = OpenCLNet;

4:在项目里添加一个Extend类,内容如下

public static class Extend

{

	/// <summary>

	/// 取指针

	/// </summary>

	/// <param name="obj"></param>

	/// <returns></returns>

	public static unsafe IntPtr ToIntPtr(this int[] obj)

	{

		IntPtr PtrA = IntPtr.Zero;

		fixed (int* Ap = obj) return new IntPtr(Ap);

	}

}//End Class

5:在MainProgram把一段运行在GPU的代码放在C#的字符串里:

#region OpenCL代码

private static string CLCode = @"

__kernel void vector_add_gpu(__global int* src_a, __global int* src_b, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + src_b[idx];

}

__kernel void vector_inc_gpu(__global int* src_a, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + 1;

}

";

#endregion

6:选中一个设备

在大多数电脑上有1个CPU和2个GPU(集显,独显),有的电脑会有更多或者更少,这里需要选中一个

//获取平台数量

OpenCL.GetPlatformIDs(32, new IntPtr[32], out uint num_platforms);

var devs = new List<Device>();

//枚举所有平台下面的设备(CPU和GPU)

for (int i = 0; i < num_platforms; i++)

{

	//这里后面有个参数,是Enum,这里选择GPU,表示只枚举GPU,在没有GPU的电脑上可以选CPU,也可以传ALL,会把所有设备枚举出来供选择

	devs.AddRange(OpenCL.GetPlatform(i).QueryDevices(DeviceType.GPU));

}

//选中运算设备,这里选第一个其它的释放掉

var oclDevice = devs[0];

7:配置上下文

上下文用来描述CPU与运算设备之间的主从关系.

//根据配置建立上下文

var oclContext = oclDevice.Platform.CreateContext(

	new[] { (IntPtr)ContextProperties.PLATFORM, oclDevice.Platform.PlatformID, IntPtr.Zero, IntPtr.Zero },

	new[] { oclDevice },

	(errInfo, privateInfo, cb, userData) => { },

	IntPtr.Zero

);

8:创建命令队列

opencl的命令要放到队列里,然后一次性调用执行方法等待执行完毕,它可以乱序执行,也可以顺序执行.如果你想等某命令执行完再继续,可以在中间加上栅栏(下面会讲)

//创建命令队列

var oclCQ = oclContext.CreateCommandQueue(oclDevice, CommandQueueProperties.PROFILING_ENABLE);

9:编译OpenCL代码,并引出两个Kernel

//定义一个字典用来存放所有核

var Kernels = new Dictionary<string, Kernel>();

#region 编译代码并导出核

var oclProgram = oclContext.CreateProgramWithSource(CLCode);

try

{

	oclProgram.Build();

}

catch (OpenCLBuildException EEE)

{

	Console.WriteLine(EEE.BuildLogs[0]);

	Console.ReadKey(true);

	throw EEE;

	//return null;

}

foreach (var item in new[] { "vector_add_gpu", "vector_inc_gpu" })

{

	Kernels.Add(item, oclProgram.CreateKernel(item));

}

oclProgram.Dispose();

#endregion

10:调用Kernel示例:

#region 调用vector_add_gpu核

{

	var A = new int[] { 1, 2, 3, 1722 };

	var B = new int[] { 456, 2, 1, 56 };

	var C = new int[4];

	//在显存创建缓冲区并把HOST的数据拷贝过去

	var n1 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, A.Length * sizeof(int), A.ToIntPtr());

	var n2 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, B.Length * sizeof(int), B.ToIntPtr());

	//还有一个缓冲区用来接收回参

	var n3 = oclContext.CreateBuffer(MemFlags.READ_WRITE, B.Length * sizeof(int), IntPtr.Zero);

	//把参数填进Kernel里

	Kernels["vector_add_gpu"].SetArg(0, n1);

	Kernels["vector_add_gpu"].SetArg(1, n2);

	Kernels["vector_add_gpu"].SetArg(2, n3);

	//把调用请求添加到队列里,参数分别是:Kernel,数据的维度,每个维度的全局工作项ID偏移,每个维度工作项数量(我们这里有4个数据,所以设为4),每个维度的工作组长度(这里设为每4个一组)

	oclCQ.EnqueueNDRangeKernel(Kernels["vector_add_gpu"], 1, new[] { 0 }, new[] { 4 }, new[] { 4 });

	//设置栅栏强制要求上面的命令执行完才继续下面的命令.

	oclCQ.EnqueueBarrier();

	//添加一个读取数据命令到队列里,用来读取运算结果

	oclCQ.EnqueueReadBuffer(n3, true, 0, C.Length * sizeof(int), C.ToIntPtr());

	//开始执行

	oclCQ.Finish();

	n1.Dispose();

	n2.Dispose();

	n3.Dispose();

	C = C;//在这里打断点,查看返回值

}

// */

#endregion

11:释放资源

//按顺序释放之前构造的对象

oclCQ.Dispose();

oclContext.Dispose();

oclDevice.Dispose();

MainProgram所有代码:

class MainProgram

	{

		#region OpenCL代码

		private static string CLCode = @"

__kernel void vector_add_gpu(__global int* src_a, __global int* src_b, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + src_b[idx];

}

__kernel void vector_inc_gpu(__global int* src_a, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + 1;

}

";

		#endregion

		static void Main(string[] args)

		{

			//获取平台数量

			OpenCL.GetPlatformIDs(32, new IntPtr[32], out uint num_platforms);

			var devs = new List<Device>();

			//枚举所有平台下面的设备(CPU和GPU)

			for (int i = 0; i < num_platforms; i++)

			{

				//这里后面有个参数,是Enum,这里选择GPU,表示只枚举GPU,在没有GPU的电脑上可以选CPU,也可以传ALL,会把所有设备枚举出来供选择

				devs.AddRange(OpenCL.GetPlatform(i).QueryDevices(DeviceType.GPU));

			}

			//选中运算设备,这里选第一个其它的释放掉

			var oclDevice = devs[0];

			for (int i = 1; i < devs.Count; i++) devs[i].Dispose();

			//根据配置建立上下文

			var oclContext = oclDevice.Platform.CreateContext(

				new[] { (IntPtr)ContextProperties.PLATFORM, oclDevice.Platform.PlatformID, IntPtr.Zero, IntPtr.Zero },

				new[] { oclDevice },

				(errInfo, privateInfo, cb, userData) => { },

				IntPtr.Zero

			);

			//创建命令队列

			var oclCQ = oclContext.CreateCommandQueue(oclDevice, CommandQueueProperties.PROFILING_ENABLE);

			//定义一个字典用来存放所有核

			var Kernels = new Dictionary<string, Kernel>();

			#region 编译代码并导出核

			var oclProgram = oclContext.CreateProgramWithSource(CLCode);

			try

			{

				oclProgram.Build();

			}

			catch (OpenCLBuildException EEE)

			{

				Console.WriteLine(EEE.BuildLogs[0]);

				Console.ReadKey(true);

				throw EEE;

				//return null;

			}

			foreach (var item in new[] { "vector_add_gpu", "vector_inc_gpu" })

			{

				Kernels.Add(item, oclProgram.CreateKernel(item));

			}

			oclProgram.Dispose();

			#endregion

			#region 调用vector_add_gpu核

			{

				var A = new int[] { 1, 2, 3, 1722 };

				var B = new int[] { 456, 2, 1, 56 };

				var C = new int[4];

				//在显存创建缓冲区并把HOST的数据拷贝过去

				var n1 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, A.Length * sizeof(int), A.ToIntPtr());

				var n2 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, B.Length * sizeof(int), B.ToIntPtr());

				//还有一个缓冲区用来接收回参

				var n3 = oclContext.CreateBuffer(MemFlags.READ_WRITE, B.Length * sizeof(int), IntPtr.Zero);

				//把参数填进Kernel里

				Kernels["vector_add_gpu"].SetArg(0, n1);

				Kernels["vector_add_gpu"].SetArg(1, n2);

				Kernels["vector_add_gpu"].SetArg(2, n3);

				//把调用请求添加到队列里,参数分别是:Kernel,数据的维度,每个维度的全局工作项ID偏移,每个维度工作项数量(我们这里有4个数据,所以设为4),每个维度的工作组长度(这里设为每4个一组)

				oclCQ.EnqueueNDRangeKernel(Kernels["vector_add_gpu"], 1, new[] { 0 }, new[] { 4 }, new[] { 4 });

				//设置栅栏强制要求上面的命令执行完才继续下面的命令.

				oclCQ.EnqueueBarrier();

				//添加一个读取数据命令到队列里,用来读取运算结果

				oclCQ.EnqueueReadBuffer(n3, true, 0, C.Length * sizeof(int), C.ToIntPtr());

				//开始执行

				oclCQ.Finish();

				n1.Dispose();

				n2.Dispose();

				n3.Dispose();

				C = C;//在这里打断点,查看返回值

			}

			// */

			#endregion

			//按顺序释放之前构造的对象

			oclCQ.Dispose();

			oclContext.Dispose();

			oclDevice.Dispose();

		}

	}//End Class

运行效果:

至此,操作完成~

我在文中留了一个Kernel,你可以尝试调用看看.

相关代码git:

https://gitee.com/ASMTeam/CSharpOpenCLDemo

C#通过OpenCL调用显卡GPU做高效并行运算的更多相关文章

OpenCL 双调排序 GPU 版
▶ 参考书中的代码,写了 ● 代码,核函数文件包含三中算法 // kernel.cl __kernel void bitonicSort01(__global uint *data, const ui ...
【原创】Linux环境下的图形系统和AMD R600显卡编程(6)——AMD显卡GPU命令格式
前面一篇blog里面描述了命令环缓冲区机制,在命令环机制下,驱动写入PM4(不知道为何会取这样一个名字)包格式的命令对显卡进行配置.这一篇blog将详细介绍命令包的格式. 当前定义了4中命令包,分别是 ...
从头学pytorch(十三):使用GPU做计算
GPU计算默认情况下,pytorch将数据保存在内存,而不是显存. 查看显卡信息 nvidia-smi 我的机器输出如下: Fri Jan 3 16:20:51 2020 +------------ ...
如何调用sklearn模块做交叉验证
终于搞明白了如何用sklearn做交叉验证!!! 一般在建立完模型之后,我们要预测模型的好坏,为了试验的可靠性(排除一次测试的偶然性)我们要进行多次测试验证,这时就要用交叉验证. sklearn中的s ...
Kubernetes调用vSphere vSAN做持久化存储
参考 1.vSphere Storage for Kubernetes 2.IBM vSphere Cloud Provider 3.GitHub vSphere Volume examples 一. ...
显卡 GPU 关系
https://zhidao.baidu.com/question/1238935513507031339.htmlGraphic Processing Unit,意思就是图形处理器啊,显卡的由GPU ...
python-----查看显卡gpu信息
需要安装pynvml库. 下载地址为:https://pypi.org/project/nvidia-ml-py/#history pip安装的命令为: pip install nvidia-ml-p ...
[转]linux 下使用 c / c++ 调用curl库做通信开发
example: 1. http://curl.haxx.se/libcurl/c/example.html 2. http://www.libcurl.org/book: 1. http:/ ...
win10家庭中文版CUDA+CUDNN+显卡GPU使用tensorflow-gpu训练模型安装过程(精华帖汇总+重新修改多次复现)
查看安装包 pip list 本帖提供操作过程,具体操作网上有好多了,不赘述.红色字体为后来复现出现的问题以及批注题外话: (1)python 的环境尽量保持干净,尽量单一,否则容易把自己搞晕,不知 ...

随机推荐

Java课程设计+购物车WEB页面
1. 团队名称(keke) 徐婉萍:网络1511 201521123006 2. 项目git地址 3. 项目git提交记录截图 4. 项目功能架构图与主要功能流程图项目功能架构图项目主要功能流程图 ...
JAVA课设学生基本信息管理团队博客
1.成员邹其元网络1512 201521123060 杨钧宇网络1512 201521123062 2.项目Git地址团队项目码云地址 //添加截图 3. 项目git提交记录截图(要体现出每个 ...
Java并发编程 Volatile关键字解析
volatile关键字的两层语义一旦一个共享变量(类的成员变量.类的静态成员变量)被volatile修饰之后,那么就具备了两层语义: 1)保证了不同线程对这个变量进行操作时的可见性,即一个线程修改了 ...
Mybatis第七篇【resultMap、resultType、延迟加载】
resultMap 有的时候,我们看别的映射文件,可能看不到以下这么一段代码: <resultMap id="userListResultMap" type="us ...
SDP开发
1.1 前言在企业间的商业竞争越来越激烈的今天,如何快速实现客户需求,如果快速方开发.修改.更新系统功能,如何降低软件研发的成本等等,在此目标基础上研发了软件快速开发(SDP)工具.通过平台设计器快 ...
Cheat sheet for Jupyter Notebook
近期,DataCamp发布了jupyter notebook的 cheat sheet,[Python数据之道]第一时间与大家一起来分享下该cheat sheet的内容. 以下是该cheat shee ...
HDFS源码分析之NameNode（3）————RpcServer
NameNodeRpcServer implements NamenodeProtocols NameNode支持核心即NameNodeRpcServer 实现ClientProtocol 支持客户 ...
关于逆元的概念、用途和可行性的思考（附51nod 1013 和 51nod 1256）
[逆元的概念] 逆元和单位元这个概念在群中的解释是: 逆元是指数学领域群G中任意一个元素a,都在G中有唯一的逆元a',具有性质a×a'=a'×a=e,其中e为该群的单位元. 群的概念是: 如果独异 ...
《深入浅出设计模式》读书笔记 C#版（第一章）
原始需求和设计事情是这样开始的,公司需要做一套程序,鸭子,设计如下: 一个鸭子父类,多个派生类,三个可override的方法. 第一次需求变更我们要会飞的鸭子!!!!! 所以我们做了如下的更改: ...
C语言定义从URL中获取键值的接口
环境:centos7下,对客户端http请求进行解析,来获取有效键值(包括汉字). 头文件 /* 这是一份关于从Http请求信息中提取键值的接口声明的头文件 */ #ifndef _HEAD_H_ # ...

C#通过OpenCL调用显卡GPU做高效并行运算