1. cuda的安装

到 https://developer.nvidia.com/cuda-toolkit 去下载。在安装的时候一定要自定义安装，否则将会安装很多无用的东西。安装的选项，可以选择不更新驱动程序。

或者下载离线文件安装

安装，选择自定义安装。

安装后，和英伟达cuda相关的程序如下图所示。

注意，千万不要勾选 Nsight Visual Studio Edition 2019.2等类似的无用的东西。

2. 测试环境是否安装成功

运行cmd，输入nvcc --version 即可查看版本号；

set cuda，可以查看cuda设置的环境变量。

3. 运行官方自带的demo

在任务管理器中搜索，Browse CUDA Samples。或者一般位于 C:\ProgramData\NVIDIA Corporation\CUDA Samples

未编译前，Debug文件夹中只有三个文件，如图。

成功编译后这个位置（具体路径见上图）将生成很多文件，在其中找到deviceQueryDrv.exe的程序拖入到cmd中，回车运行。

4. 自己配置cuda项目

（1）打开vs2017，创建一个空win32程序,即cuda_test项目。

（2）选择cuda_test，点击右键–>项目依赖项–>自定义生成，选择CUDA10.1。

（3）右键源文件文件夹->添加->新建项->选择CUDA C/C++File，取名cuda_main。

（4）点击cuda_main.cu的属性,在配置属性–>常规–>项类型–>选择“CUDA C/C++”。

注意：以下步骤中的项目属性设置均针对x64。

（5）包含目录配置：

右键点击项目属性–>属性–>配置属性–>VC++目录–>包含目录

添加包含目录：$(CUDA_PATH)\include

（6）库目录配置

添加库目录：$(CUDA_PATH)\lib\x64

（7）依赖项

配置属性–>链接器–>输入–>附加依赖项

添加库文件：cublas.lib;cuda.lib;cudadevrt.lib;cudart.lib;cudart_static.lib;OpenCL.lib

cuda_main.cu代码如下：

#include "cuda_runtime.h"

#include "cublas_v2.h"  

#include <time.h>

#include <iostream>  

using namespace std;

// 定义测试矩阵的维度

int const M = 5;

int const N = 10;

int main()

{

	// 定义状态变量

	cublasStatus_t status;

	// 在 内存 中为将要计算的矩阵开辟空间

	float *h_A = (float*)malloc(N*M * sizeof(float));

	float *h_B = (float*)malloc(N*M * sizeof(float));

	// 在 内存 中为将要存放运算结果的矩阵开辟空间

	float *h_C = (float*)malloc(M*M * sizeof(float));

	// 为待运算矩阵的元素赋予 0-10 范围内的随机数

	for (int i = 0; i < N*M; i++) {

		h_A[i] = (float)(rand() % 10 + 1);

		h_B[i] = (float)(rand() % 10 + 1);

	}

	// 打印待测试的矩阵

	cout << "矩阵 A :" << endl;

	for (int i = 0; i < N*M; i++) {

		cout << h_A[i] << " ";

		if ((i + 1) % N == 0) cout << endl;

	}

	cout << endl;

	cout << "矩阵 B :" << endl;

	for (int i = 0; i < N*M; i++) {

		cout << h_B[i] << " ";

		if ((i + 1) % M == 0) cout << endl;

	}

	cout << endl;

	/*

	** GPU 计算矩阵相乘

	*/

	// 创建并初始化 CUBLAS 库对象

	cublasHandle_t handle;

	status = cublasCreate(&handle);

	if (status != CUBLAS_STATUS_SUCCESS)

	{

		if (status == CUBLAS_STATUS_NOT_INITIALIZED) {

			cout << "CUBLAS 对象实例化出错" << endl;

		}

		getchar();

		return EXIT_FAILURE;

	}

	float *d_A, *d_B, *d_C;

	// 在 显存 中为将要计算的矩阵开辟空间

	cudaMalloc(

		(void**)&d_A,    // 指向开辟的空间的指针

		N*M * sizeof(float)    //　需要开辟空间的字节数

	);

	cudaMalloc(

		(void**)&d_B,

		N*M * sizeof(float)

	);

	// 在 显存 中为将要存放运算结果的矩阵开辟空间

	cudaMalloc(

		(void**)&d_C,

		M*M * sizeof(float)

	);

	// 将矩阵数据传递进 显存 中已经开辟好了的空间

	cublasSetVector(

		N*M,    // 要存入显存的元素个数

		sizeof(float),    // 每个元素大小

		h_A,    // 主机端起始地址

		1,    // 连续元素之间的存储间隔

		d_A,    // GPU 端起始地址

		1    // 连续元素之间的存储间隔

	);

	cublasSetVector(

		N*M,

		sizeof(float),

		h_B,

		1,

		d_B,

		1

	);

	// 同步函数

	cudaThreadSynchronize();

	// 传递进矩阵相乘函数中的参数，具体含义请参考函数手册。

	float a = 1; float b = 0;

	// 矩阵相乘。该函数必然将数组解析成列优先数组

	cublasSgemm(

		handle,    // blas 库对象

		CUBLAS_OP_T,    // 矩阵 A 属性参数

		CUBLAS_OP_T,    // 矩阵 B 属性参数

		M,    // A, C 的行数

		M,    // B, C 的列数

		N,    // A 的列数和 B 的行数

		&a,    // 运算式的 α 值

		d_A,    // A 在显存中的地址

		N,    // lda

		d_B,    // B 在显存中的地址

		M,    // ldb

		&b,    // 运算式的 β 值

		d_C,    // C 在显存中的地址(结果矩阵)

		M    // ldc

	);

	// 同步函数

	cudaThreadSynchronize();

	// 从 显存 中取出运算结果至 内存中去

	cublasGetVector(

		M*M,    //  要取出元素的个数

		sizeof(float),    // 每个元素大小

		d_C,    // GPU 端起始地址

		1,    // 连续元素之间的存储间隔

		h_C,    // 主机端起始地址

		1    // 连续元素之间的存储间隔

	);

	// 打印运算结果

	cout << "计算结果的转置 ( (A*B)的转置 )：" << endl;

	for (int i = 0; i < M*M; i++) {

		cout << h_C[i] << " ";

		if ((i + 1) % M == 0) cout << endl;

	}

	// 清理掉使用过的内存

	free(h_A);

	free(h_B);

	free(h_C);

	cudaFree(d_A);

	cudaFree(d_B);

	cudaFree(d_C);

	// 释放 CUBLAS 库对象

	cublasDestroy(handle);

	getchar();

	return 0;

}

5 使用VS下的模板创建

打开VS 2017，我们可以观察到，在VS2017模板一栏下方出现了“NVIDIA/CUDA 10.1”。

直接新建一个CUDA 10.1 Runtime 项目。

右键项目 → 属性 → 配置属性 → 链接器 → 常规 → 附加库目录，添加以下目录：

$(CUDA_PATH_V10_0)\lib$(Platform)

示例代码如下：

#include "cuda_runtime.h"

#include "device_launch_parameters.h"

#include <stdio.h>

int main() {

	int deviceCount;

	cudaGetDeviceCount(&deviceCount);

	int dev;

	for (dev = 0; dev < deviceCount; dev++)

	{

		int driver_version(0), runtime_version(0);

		cudaDeviceProp deviceProp;

		cudaGetDeviceProperties(&deviceProp, dev);

		if (dev == 0)

			if (deviceProp.minor = 9999 && deviceProp.major == 9999)

				printf("\n");

		printf("\nDevice%d:\"%s\"\n", dev, deviceProp.name);

		cudaDriverGetVersion(&driver_version);

		printf("CUDA驱动版本:                                   %d.%d\n", driver_version / 1000, (driver_version % 1000) / 10);

		cudaRuntimeGetVersion(&runtime_version);

		printf("CUDA运行时版本:                                 %d.%d\n", runtime_version / 1000, (runtime_version % 1000) / 10);

		printf("设备计算能力:                                   %d.%d\n", deviceProp.major, deviceProp.minor);

		printf("Total amount of Global Memory:                  %u bytes\n", deviceProp.totalGlobalMem);

		printf("Number of SMs:                                  %d\n", deviceProp.multiProcessorCount);

		printf("Total amount of Constant Memory:                %u bytes\n", deviceProp.totalConstMem);

		printf("Total amount of Shared Memory per block:        %u bytes\n", deviceProp.sharedMemPerBlock);

		printf("Total number of registers available per block:  %d\n", deviceProp.regsPerBlock);

		printf("Warp size:                                      %d\n", deviceProp.warpSize);

		printf("Maximum number of threads per SM:               %d\n", deviceProp.maxThreadsPerMultiProcessor);

		printf("Maximum number of threads per block:            %d\n", deviceProp.maxThreadsPerBlock);

		printf("Maximum size of each dimension of a block:      %d x %d x %d\n", deviceProp.maxThreadsDim[0],

			deviceProp.maxThreadsDim[1],

			deviceProp.maxThreadsDim[2]);

		printf("Maximum size of each dimension of a grid:       %d x %d x %d\n", deviceProp.maxGridSize[0], deviceProp.maxGridSize[1], deviceProp.maxGridSize[2]);

		printf("Maximum memory pitch:                           %u bytes\n", deviceProp.memPitch);

		printf("Texture alignmemt:                              %u bytes\n", deviceProp.texturePitchAlignment);

		printf("Clock rate:                                     %.2f GHz\n", deviceProp.clockRate * 1e-6f);

		printf("Memory Clock rate:                              %.0f MHz\n", deviceProp.memoryClockRate * 1e-3f);

		printf("Memory Bus Width:                               %d-bit\n", deviceProp.memoryBusWidth);

	}

	return 0;

}

参考文章

win10+VS2017+Cuda10.0环境配置

windows下cuda的安装的更多相关文章

Windows下的Memcache安装 linux下的Memcache安装
linux下的Memcache安装: 1. 下载 memcache的linux版本,注意 memcached 用 libevent 来作事件驱动,所以要先安装有 libevent. 官方网址:http ...
Windows下的Memcache安装
Windows下的Memcache安装: 1. 下载memcache的windows稳定版,解压放某个盘下面,比如在c:\memcached2. 在终端(也即cmd命令界面)下输入 'c:\memca ...
Windows下 VM12虚拟机安装OS X 10.11 和VM TOOLS
Windows下虚拟机安装Mac OS X —– VMware Workstation12安装Mac OS X 10.11 本文即将介绍WIN虚拟MAC的教程.完整详细教程(包含安装中的一些问题) [ ...
coreseek实战(一)：windows下coreseek的安装与测试
coreseek实战(一):windows下coreseek的安装与测试网上关于 coreseek 在 windows 下安装与使用的教程有很多,官方也有详细的教程,这里我也只是按着官方提供的教程详 ...
Windows下Memcache的安装与在php中使用
memcache dll插件和测试例子下载地址: http://pecl.php.net/package/memcache Windows下Memcache的安装方法 Memcached官方:http ...
Windows下的Memcache安装与测试教程
Windows下的Memcache安装 1.下载memcache for windows. 下载地址:http://splinedancer.com/memcached-win32/,推荐下载bina ...
Mysql在windows下的免安装配置步骤和重新安装的步骤
windows下mysql免安装配置 1. 下载mysql免安装压缩包下载mysql-5.6.22-winx64.zip 解压到本地D:\mysql-5.6.22-winx64 2. 修改配置文件 ...
DEDECMS最新5.7版在Windows下的Memcache安装
一,织梦后台后台设置进入系统后台,在[系统基本参数]下面的"性能选项"卡当中,关于memcache进行如下配置: cfg_memcache_enable : 是否启用memcach ...
Windows下的Memcache安装：
Windows下的Memcache安装:1. 下载memcache的windows稳定版,解压放某个盘下面,比如在c:\memcached2. 在终端(也即cmd命令界面)下输入 'c:\memcac ...

随机推荐

CentOS7 通过systemd 添加开机重启服务
现在越来越多的环境采用 CentOS 7 作为基础配置,特别是 Hadoop生态如果要测试或部署环境需要启动很多组件(zookeeper.kafka.redis等等),如下内容是在操作系统层实现开机 ...
Spring Boot YML 掀翻 Properties！！
.properties 配置文件大家应该都很熟悉,键值对嘛,.yml 配置文件栈长也是从 Spring Boot 开始了解到的. 那么,这两种格式的配置文件到底有哪些区别呢?哪个更好?能不能替换代替? ...
第09组 Beta冲刺（2/4）
队名:软工9组组长博客:https://www.cnblogs.com/cmlei/ 作业博客:https://edu.cnblogs.com/campus/fzu/SoftwareEngineer ...
剑指offer：删除链表中重复的结点
题目描述: 在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3->3->4->4->5 处理 ...
C# 最简单的使程序单进程运行的方法
1.代码1 static void Main() { Process current = Process.GetCurrentProcess(); Process[] processes = Proc ...
python简单的游戏场景代码
模拟英雄联盟游戏场景的简单场景最后计算出英雄的战斗力 class Hero: def __init__(self, na, gen, age, fig): self.name = na self.g ...
Python selenium PO By.XPATH定位元素报错
Python selenium PO By.XPATH定位元素报错如下代码经常报错: # 首页的“新建投放计划”按钮 new_ads_plan = (By.XPATH, "//*[tex ...
错误详情:已取消该操作。--------- 在 System.Threading.CancellationToken.ThrowOperationCanceledException()
错误详情:已取消该操作.--------- 在 System.Threading.CancellationToken.ThrowOperationCanceledException() 在 Syste ...
ThinkPHP5最新URL访问:PATH_INFO和兼容模式
https://www.jianshu.com/p/c43fb5817ae1 http://tp5.com/index.php?s=USER/manger_user/add&n=2000&am ...
[Math] From Prior to Posterior distribution
贝叶斯统计推断后验分布与充分性无信息先验下的后验分布共轭先验(conjugacy)下的后验分布其中,正态分布的共轭先验推导过程,典型且重要. (1) 当方差已知时,均值(prior: 高斯分布 ...

windows下cuda的安装