C#使用CUDA

随着信息处理的爆炸增长，传统使用CPU计算已经无法满足计算作业增长的需求，GPU的出现为批量作业提供了新的契机。GPU计算拥有很类库，比如CUDA、OpenCL等，但是可以发现CUDA是其中相对比较成熟的一个，也是目前应用最为广发的一种。于此同时开发语言的飞速发展，呈现百花齐放状态，C#语言简单高效，所以本文讲述如何使用C#调用CUDA进行GPU计算。

前言

最近几年计算机有了巨大发展，各种开发语言百花齐放，但是笔者还是钟爱C#语言，尤其是目前微软的生态开放，.NET 技术的跨平台加上方便高效的Visual Studio IDE，使得C#语言的占比不断增加。

【B站小飞机】C#调用CUDA实现GPU计算

本文使用的是C#语言调用C++开发的CUDA类库实现GPU计算，基本条件如下：

选项	内容
操作系统	Windows 10
CUDA版本	10.1
Visual Studio	2019 Enterprise

上述的环境是笔者的环境，如有异同按实际条件。

方法论

本小结介绍使用C++语言开发CUDA程序的共享链接库的方法以及如何使用C#语言调用CUDA类库。

创建C++类库

首先打开Visual Studio，然后创建C++的动态链接库项目，注意一定是动态链接库，请勿使用静态链接库，可能会有错误。

项目创建完毕之后可以看到下面的界面：

创建一个和外界交互的cudaApi.h文件、两个和CUDA相关的文件CudaKernel.cuh和CudaKernel.cu，当然可以缺省为一个文件，但是本着约定大于配置的原则，建议使用两个文件，一个是CUDA的源码文件一个是CUDA的头文件，在头文件中声明函数，源码文件对函数进行实现，之后效果如下：

然后配置一下工程，需要注意的是建议全局是x64环境，必须保证C++的动态链接库项目和C#的项目是同一种类型，一般FX(.NET Framework)默认的是Any CPU，不要使用这个选项，直接指定x64或者x86。

右键选中项目，【生成依赖】 --> 【自定义生成】 --> 【勾选CUDA10】(当然不排除你的事CUDA9或者CUDA8)

然后选择两个CUDA的核文件，选择属性，选中CUDA C/C++

最后选中项目右键，找到【连接器】--> 【输入】，在类库中输入cudart.lib，点击确定。

作为初期实验，建议先复制我的代码，先理解这个流程之后再自己自定义创建CUDA类库。

//cudaApi.h

#pragma once

#define CUDADD_API __declspec(dllexport)

extern "C" {

	//CUDA API

	CUDADD_API int arrayAdd(int* a, int* b, int* c, int size);

}

//CudaKernel.cuh

#include "cudaApi.h"

#include "cuda_runtime.h"

#include "device_launch_parameters.h"

__global__ void addKernel(int* c, const int* a, const int* b);

CUDADD_API int arrayAdd(int* a, int* b, int* c, int size);

CUDA核心实现代码$^{[1]}$：

//CudaKernel.cu

#include "CudaKernel.cuh"

__global__ void addKernel(int* c, const int* a, const int* b)

{

	int i = threadIdx.x;

	c[i] = a[i] + b[i];

}

CUDADD_API int arrayAdd(int c[], int a[], int b[], int size)

{

	int result = -1;

	int* dev_a = 0;

	int* dev_b = 0;

	int* dev_c = 0;

	cudaError_t cudaStatus;

	cudaStatus = cudaSetDevice(0);

	if (cudaStatus != cudaSuccess) {

		result = 1;

		goto Error;

	}

	cudaStatus = cudaMalloc((void**)& dev_c, size * sizeof(int));

	if (cudaStatus != cudaSuccess) {

		result = 2;

		goto Error;

	}

	cudaStatus = cudaMalloc((void**)& dev_a, size * sizeof(int));

	if (cudaStatus != cudaSuccess) {

		result = 3;

		goto Error;

	}

	cudaStatus = cudaMalloc((void**)& dev_b, size * sizeof(int));

	if (cudaStatus != cudaSuccess) {

		result = 4;

		goto Error;

	}

	cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);

	if (cudaStatus != cudaSuccess) {

		result = 5;

		goto Error;

	}

	cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);

	if (cudaStatus != cudaSuccess) {

		result = 6;

		goto Error;

	}

	addKernel << <10, size >> > (dev_c, dev_a, dev_b);

	cudaStatus = cudaDeviceSynchronize();

	if (cudaStatus != cudaSuccess) {

		result = 7;

		goto Error;

	}

	cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);

	if (cudaStatus != cudaSuccess) {

		result = 8;

		goto Error;

	}

	result = 0;

	cudaStatus = cudaDeviceReset();

	if (cudaStatus != cudaSuccess) {

		return 9;

	}

Error:

	cudaFree(dev_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	return result;

}

重新生成程序如果不报错就可以成功生成一个CUDA的DLL动态链接库。

到此为止CUDA的动态链接库编写完成，开始编写C#程序，本程序使用的是.NET Core 2.2，如果你的电脑没有此环境可以自己创建一个C#的控制台项目，代码均相同。

创建C#类库

创建C#项目不再赘述，直接创建控制台项目即可完成测试，下面提供一个我的C#的一个类作为参考：

//CudaRunner.cs

class CudaRunner

    {

        public void Run()

        {

            var a = new int[] { 1, 2, 3, 45, 456, 454, 1, 4, 65, 32, 456, 1, 56, 32, 512, 3, 5416, 86, 54, 4236, 12, 113, 321 };

            var b = new int[] { 1, 2, 3, 45, 456, 454, 1, 4, 65, 32, 456, 1, 56, 32, 512, 3, 5416, 86, 54, 4236, 12, 113, 321 };

            var c = new int[a.Length];

            arrayAdd(c, a, b, a.Length);

            for (int i = 0; i < c.Length; i++)

            {

                Console.WriteLine("{0} + {1} = {2}", a[i], b[i], c[i]);

            }

        }

        //.NET Framework 可以相对路径，.NET Core 就需要用绝对路径，或者自己配置

        [DllImport(@"C:\Users\muxuan\source\repos\CudaSharpDemo\x64\Debug\CudaSharp.dll", CallingConvention = CallingConvention.StdCall)]

        public static extern int arrayAdd(int[] c, int[] a, int[] b, int size);

    }

然后在控制台的Program.cs中调用一下即可，再次强调，这里不要使用Any CPU！！！

实验环节

实验环节很简单，如果你是用的我的程序可以直接运行查看效果，这是一个矩阵的加法。

结论与总结

到上面的实验环节基本程序部分已经结束，但是你可能会发现使用GPU计算这些数据的速度并没有CPU的快速，原因在哪呢？归结一下两个原因$^{[2]}$：

计算量太小，不够复杂。GPU的优势是核心较多，每一个核心的计算时间越长，整体的时间差异就会越明显，比如每一个核心计算数耗时是1ms，有1000个计算大概需要耗时1s左右，但是对于GPU(1060)超过1000个CUDA核心时，将在1ms内计算完毕，CPU的理论时间消耗是GPU的1000倍左右。
GPU设备初始化。初始化时间主要来自几个部分：设备初始化、数据拷贝，其中数据初始化耗时是不可控的，属于硬件底层，数据拷贝是指从CPU拷贝数据到GPU计算数据，然后GPU将数据重新拷贝到CPU的过程，这个过程耗时可控也是主导部分。

参考文献

[1] C与CUDA混合编程的配置问题

[2] 新手问下关于CUDA效率的问题

附录

源码：蓝奏云，CSDN

C#使用CUDA的更多相关文章

CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
CUDA[1] Introductory
Section 0 :Induction of CUDA CUDA是啥?CUDA®: A General-Purpose Parallel Computing Platform and Program ...
Couldn't open CUDA library cublas64_80.dll etc. tensorflow-gpu on windows
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\dso_load ...
ubuntu 16.04 + N驱动安装＋CUDA+Qt5 + opencv
Nvidia driver installation(after download XX.run installation file) 1. ctrl+Alt+F1 //go to virtual ...
手把手教你搭建深度学习平台——避坑安装theano+CUDA
python有多混乱我就不多说了.这个混论不仅是指整个python市场混乱,更混乱的还有python的各种附加依赖包.为了一劳永逸解决python的各种依赖包对深度学习造成的影响,本文中采用pytho ...
[CUDA] CUDA to DL
又是一枚祖国的骚年,阅览做做笔记:http://www.cnblogs.com/neopenx/p/4643705.html 这里只是一些基础知识.帮助理解DL tool的实现. “这也是深度学习带来 ...
基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记
基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记飞翔的蜘蛛人注1:本人新手,文章中不准确的地方,欢迎批评指正注2:知识储备应达到Linux入门级水平 ...
CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...
使用 CUDA范例精解通用GPU编程配套程序的方法
用vs新建一个cuda的项目,然后将系统自动生成的那个.cu里头的内容,除了头文件引用外,全部替代成先有代码的内容. 然后程序就能跑了. 因为新建的是cuda的项目,所以所有的头文件和库的引用系统都会 ...
CUDA代码移植
如果CUDA的代码移植,一个是要 include文件夹对不对,这个是.h文件能否找到的关键,另一个就是lib,这个是.lib文件能否找到的关键.具体检查地方,见下头. include: lib:

随机推荐

跨域问题——学习ing
问题跨域:我写了一个页面,在js中写了请求,这个请求的url跟我这个页面不在一个域名,那么这个请求就是跨域请求. 跨域会怎么样:没见过,可能就不让你请求呗,为了安全考虑之类的.(涉及浏览器的同源策略 ...
在vue项目中的main.js中直接使用element-ui中的Message 消息提示、MessageBox 弹框、Notification 通知
需求来源:向后台请求数据时后台挂掉了,后台响应就出现错误,不做处理界面就卡住了,这时需要在main.js中使用axios的响应拦截器在出现相应错误是给出提示.项目使用element-ui,就调用里面的 ...
[Google Guava] 6-字符串处理：分割，连接，填充
原文链接译文链接译者:沈义扬,校对:丁一连接器[Joiner] 用分隔符把字符串序列连接起来也可能会遇上不必要的麻烦.如果字符串序列中含有null,那连接操作会更难.Fluent风格的Joine ...
7、Spring Boot 2.x 集成 Redis
1.7 Spring Boot 2.x 集成 Redis 简介继续上篇的MyBatis操作,详细介绍在Spring Boot中使用RedisCacheManager作为缓存管理器,集成业务于一体. ...
15-Node.js学习笔记-Express的安装及检验
最新的node已经把一些命令工具单独的分出来了,所以我们应该先下安装他的打包函数,再安装express,在进行检验就安装成功了如需require还需在文件夹内单独安装 sudo npm instal ...
Oracle 后台进程（二）DBWR进程
一.DBWR进程介绍 DBWR进程执行将数据块缓冲区写入数据文件的工作,是负责缓冲存储管理的一个Oracle后台进程.在修改DB Cache中的某个缓冲区时,会将它标志为“DIRTY”,DBWR的主要 ...
Oracle 物理结构（二）文件-口令文件
一.口令文件作用 1.口令文件基本介绍 Oracle数据库口令文件存放有超级用户的口令及其他特殊用户的用户名/口令. 口令文件在数据库创建时,自动创建,存放在$ORACLE_HOME/dbs. 此文件 ...
一些有用的dll
1.生成excel工具- EPPlus EPPlus.dll 2.生成word工具 - OpenXml DocumentFormat.OpenXml.dll 3.生成条形码工具 - ZXing zx ...
定时器TIM，pwm
一.定时器 1. 定义设置等待时间,到达后则执行指定操作的硬件. 2. STM32F407的定时器有以下特征具有基本的定时功能,也有PWM输出(灯光控制.电机的转速).脉冲捕获功能( ...
leetcode解题报告（4）：Search in Rotated Sorted ArrayII
描述 Follow up for "Search in Rotated Sorted Array": What if duplicates are allowed? Would t ...