C++编程笔记(GPU并行编程)
一、配置并使用
环境:Windows10 + CLion + VS2019
cuda的安装,并行的话只需要安装cuda,cuDNN就不必了
编译器设置,windows下建议使用MSVC,因为是官方支持的,记得架构一定要设置amd64

GPU版本架构查询网址
CmakeList.txt编写
cmake_minimum_required(VERSION 3.22)#跟据自己的cmake版本来设置
project(CUDA_TEST2 LANGUAGES CXX CUDA)
set(CMAKE_CUDA_STANDARD 17)
set(CMAKE_BUILD_TYPE Release)
set(CMAKE_CUDA_ARCHITECTURES 61)
#设置device函数的声名和定义分开,为了性能,不建议这样
set(CMAKE_CUDA_SEPARABLE_COMPILATION ON)
add_executable(CUDA_TEST2 main.cu)
#clion加的,好像可以不要
#set_target_properties(CUDA_TEST2 PROPERTIES
# CUDA_SEPARABLE_COMPILATION ON)
至此,就可以开始写代码了
二、代码
__global__:定义在GPU上的核函数,GPU执行,从CPU调用,可以有参数,不能有返回值,global就是GPU的main函数,device就是其他函数__device__:device修饰的函数定义在GPU上,device是设备函数,GPU执行,只能由GPU调用,调用规则与普通函数一样__host__:host修饰的函数定义在CPU上,只能在CPU上调用,调用规则与普通函数一样- 同时加上host和device修饰符表示同时定义在CPU和GPU上,二者都可调用
__global__ void kernel() {
//sayHi();
printf("Block %d of %d, Thread %d of %d\n", blockIdx.x, gridDim.x, threadIdx.x, blockDim.x);
//printf("Thread Numbers %d\n",blockDim.x);
//线程编号
//printf("Thread %d\n",threadIdx.x);
//sayHello();
}
__device__ void sayHi() {
printf("Hi , GPU\n");
}
__host__ void sayHiCpu() {
printf("Hi , CPU\n");
}
__host__ __device__ void sayHello() {
//从GPU上调用就有这个宏
#ifdef __CUDA_ARCH__
printf("Hello , GPU CUDA_ARCH=%d\n", __CUDA_ARCH__);
#else
printf("Hello , CPU NO CUDA_ARCH\n");
#endif
}
一个kernel就是一个网格
网格内有多个板块,板块内有多个线程组
核函数调用时,parm1:板块 parm2:线程数量
#include <iostream>
#include <cuda_runtime.h>
int main() {
kernel<<<2, 3>>>();
kernel<<<dim3(2, 2, 2), dim3(2, 2, 2)>>>();
cudaDeviceSynchronize();
return 0;
}
核函数可以嵌套,相互调用
__global__ void another() {
printf("another : Thread %d of %d\n", threadIdx.x, blockDim.x);
}
__global__ void kernel_1() {
printf("kernel_1 : thread %d of %d\n", threadIdx.x, blockDim.x);
//可以在核函数里调用核函数
another<<<1,3>>>();
}
int main(){
kernel_1<<<2, 3>>>();
return 0;
}
三、内存管理
从核函数中返回数据
由于kernel的调用是异步的,我们创建一个kernel任务函数并调用后,它不会立刻返回,而是将任务提交到GPU的任务队列中,此时GPU并没有将任务执行完,和多线程有点像,所以不能直接从kernel函数中获取相应的返回值
所以核函数的返回类型必须为void
这样是会出错的,不被允许
__global__ int kernel() {
return 100;
}
int main(){
int ret = kernel<<<1, 1>>>();
printf("ret=%d\n", ret);
// kernel<<<dim3(2, 2, 2), dim3(2, 2, 2)>>>();
cudaDeviceSynchronize();
}
如何解决无法获得程序的返回值这个问题呢?
指针?
#include <iostream>
#include <cuda_runtime.h>
#include <common_functions.h>
__global__ void kernel(int *param) {
*param = 100;
}
int main() {
int ret = 0;
kernel<<<1, 1>>>(&ret);
cudaDeviceSynchronize();
printf("ret=%d\n",ret);
return 0;
}
好像不行

通过cudaGetErrorName获取到底为什么会出错
int ret = 0;
kernel<<<1, 1>>>(&ret);
cudaError_t err= cudaDeviceSynchronize();
printf("error : %s\n",cudaGetErrorName(err));

返回的是非法地址错误,类似于CPU上的段错误
因为这是堆栈上的局部变量,即使使用new或者malloc分配的内存,GPU也是访问不到的,因为GPU和CPU上的内存是独立的
GPU操作的其实是显存,当我们传一个地址过去的时候,GPU误以为是显存,而这块地址肯定是没有被分配过的
int main() {
int *ret;
kernel<<<1, 1>>>(cudaMalloc(&ret, sizeof(int)));
cudaError_t err= cudaDeviceSynchronize();
printf("error : %s\n",cudaGetErrorName(err));
printf("ret=%d\n",ret);
cudaFree(ret);
return 0;
}
cudaMalloc可以实现申请GPU显存
可是CPU却访问不了显存的呀,所以这种方式也不行
解决办法
__global__ void kernel(int *param) {
*param = 100;
}
int main() {
int *ret; //这里通过一个指针存放显存地址
cudaMalloc(&ret,sizeof(int)); //将显存指针的地址传过去,传二级指针,使得指针可以指向一个显存地址
kernel<<<1,1>>>(ret);
cudaError_t err = cudaDeviceSynchronize();
printf("error : %s\n", cudaGetErrorName(err));
int retS; //cpu上的内存
//参数顺序是从右往左拷贝
cudaMemcpy(&retS,ret, sizeof(int),cudaMemcpyDeviceToHost);//将GPU上的内容拷贝到CPU
err = cudaDeviceSynchronize();
printf("error : %s\n", cudaGetErrorName(err));
printf("ret=%d\n", retS);
cudaFree(ret);
return 0;
}
cudaMemcpy会自动进行同步,所以上面代码的两个cudaDeviceSynchronize可以去掉
统一内存管理
使用cudaMallocManaged函数
int *ret;
cudaError_t err = cudaMallocManaged(&ret, sizeof(int));
kernel<<<1, 1>>>(ret);
cudaDeviceSynchronize();
if (err != cudaSuccess) {
printf("Error:%s\n", cudaGetErrorName(err));
return 0;
}
printf("ret=%d\n", *ret);
cudaFree(ret);
return 0;
比较新的显卡支持的特性,只将cudaMalloc换成cudaMallocManaged即可,这样分配出来的内存地址,无论在GPU和CPU上都是一样的,而且二者会同步变化,大大方便了开发人员。当然,这是有开销的
数组的分配
和平时的CPU分配数组差不多,只是需要替换成对应的API
__global__ void kernel(int *arr, int arrLen) {
for (int i = 0; i < arrLen; ++i) {
arr[i] = i;
}
}
int main(){
int *ret;
int arrLen = 100;
cudaError_t err = cudaMallocManaged(&ret, arrLen * sizeof(int));
kernel<<<1, 1>>>(ret, arrLen);
cudaDeviceSynchronize();
if (err != cudaSuccess) {
printf("Error:%s\n", cudaGetErrorName(err));
return 0;
}
for (int i = 0; i < arrLen; ++i)
printf("arr[%d]=%d\n", i, ret[i]);
cudaFree(ret);
return 0;
}
使用cudaMalloc就应该是这样
int main() {
int *ret;
int arrLen = 100;
//在GPU上申请数组内存
cudaMalloc(&ret, arrLen * sizeof(int));
//初始化数组
kernel<<<1, 1>>>(ret, arrLen);
cudaError_t err = cudaDeviceSynchronize();
if (err != cudaSuccess) {
printf("Error:%s\n", cudaGetErrorName(err));
return 0;
}
//在CPU上申请对应的内存并将GPU上的内容拷贝
int *retS = (int *) malloc(arrLen * sizeof(int));
err = cudaMemcpy(retS, ret, arrLen * sizeof(int), cudaMemcpyDeviceToHost);
if (err != cudaSuccess) {
printf("Error:%s\n", cudaGetErrorName(err));
return 0;
}
for (int i = 0; i < arrLen; ++i)
printf("arr[%d]=%d\n", i, retS[i]);
cudaFree(ret);
free(retS);
return 0;
}
使用多线程对数组进行初始化
__global__ void kernel(int *arr, int arrLen) {
int i = threadIdx.x;
arr[i] = threadIdx.x;
}
int main() {
int *ret;
int arrLen = 100;
cudaError_t err = cudaMallocManaged(&ret, arrLen * sizeof(int));
//启动100个线程,给数组赋上线程序号
kernel<<<1, arrLen>>>(ret, arrLen);
cudaDeviceSynchronize();
if (err != cudaSuccess) {
printf("Error:%s\n", cudaGetErrorName(err));
return 0;
}
for (int i = 0; i < arrLen; ++i)
printf("arr[%d]=%d\n", i, ret[i]);
cudaFree(ret);
return 0;
由于<<<m,n>>>参数n太大可能会出错,因为不允许太多的线程,所以可以这样
__global__ void kernel(int *arr, int arrLen) {
//扁平化线程数量处理,网格跨步循环
for (int i = blockDim.x * blockIdx.x + threadIdx.x; i < arrLen; i += blockDim.x * gridDim.x) {
arr[i] = i;
printf("i=%d\n", i);
}
}
int main(){
int *ret;
int N = 6553213;
int blockNum = 312;
int threadNum = (N + blockNum - 1) / N; //向上取整
cudaError_t err = cudaMallocManaged(&ret, N * sizeof(int));
kernel<<<blockNum, threadNum>>>(ret, N);
err = cudaDeviceSynchronize();
for (int i = 0; i < N; ++i) {
printf("arr[%d] = %d\n", i, ret[i]);
}
cudaFree(ret);
}
这样无论调用多少板块多少线程多少网格,都可以运行了
C++编程笔记(GPU并行编程)的更多相关文章
- 五 浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
- 第五篇:浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
- 三 GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别?本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流, ...
- 第三篇:GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
- 四 GPU 并行编程的存储系统架构
前言 在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
- 第四篇:GPU 并行编程的存储系统架构
前言 在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
- 【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
- 大数据学习笔记3 - 并行编程模型MapReduce
分布式并行编程用于解决大规模数据的高效处理问题.分布式程序运行在大规模计算机集群上,集群中计算机并行执行大规模数据处理任务,从而获得海量计算能力. MapReduce是一种并行编程模型,用于大规模数据 ...
- C#并发编程之初识并行编程
写在前面 之前微信公众号里有一位叫sara的朋友建议我写一下Parallel的相关内容,因为手中商城的重构工作量较大,一时之间无法抽出时间.近日,这套系统已有阶段性成果,所以准备写一下Parallel ...
- GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...
随机推荐
- 不停机为虚拟机添加主机磁盘(以VMware Workstation为例)
VMware Workstation软件上安装的centos7系统,新增磁盘后使用fdisk -l命令查看不到新增的磁盘,有没有办法在不重启的情况下添加上新磁盘? 有办法 具体如下: # 查看主机总线 ...
- PostgreSQL 创建表格
PostgreSQL 使用 CREATE TABLE 语句来创建数据库表格. 语法 CREATE TABLE 语法格式如下: CREATE TABLE table_name( column1 data ...
- Grafana配置Alert监控告警
1.添加告警途径 这里以slack为例 测试是否可用 在slack上收到告警通知了 安装插件 # grafana-cli plugins install grafana-image-renderer ...
- 利用curl命令访问Kubernetes API server
kubectl 通过访问 Kubernetes API 来执行命令.我们也可以通过对应的TLS key, 使用curl 或是 golang client做同样的事. API 请求必须使用 JSON 格 ...
- 2_JDBC
一. 引言 1.1 如何操作数据库 使用客户端工具访问数据库, 需要手工建立连接, 输入用户名和密码登陆, 编写SQL语句, 点击执行, 查看操作结果(结果集或受行数影响) 1.2 实际开发中, 会采 ...
- 关于Jenkins-Item-Office 365 Connector-下的多选框的参数定义
在Jenkins的Item中Office 365 Connector下,我们有时会使用到,多选框(复选框),目的是可选择多个多个条目赋值给指定的变量 然后在Build Triggers中可以进行引用, ...
- 非swoole的方式实现简单的异步(nginx模式下)
set_time_limit(0);echo '任务开始'.time();/*即时打印*/register_shutdown_function([$this, "test"]);/ ...
- 【NOI2016】 循环之美 题解
Solution 由数论基础知识 答案即为$$\sum_{i = 1}^n\sum_{j = 1}^m[i \perp j][j \perp k]$$ 莫反套路可化为$$\sum_{d = 1}\mu ...
- Vue学习之--------Vue中自定义插件(2022/8/1)
文章目录 1.插件的基本介绍 2.实际应用 2.1 目录结构 2.2 代码实例 2.2.1 学校组件(School.vue) 2.2.2 学生组件(Student.vue) 2.2.3 定义的插件 2 ...
- element-ui el-table 多选和行内选中
<template> <div style="width: 100%;height: 100%;padding-right: 10px"> <el-t ...