如何实现nvidia显卡的cuda的多kernel并发执行？？？

相关：

CPU端多进程/多线程调用CUDA是否可以加速？？？

参考：

《CUDA C 编程指南》导读

https://developer.nvidia.com/blog/gpu-pro-tip-cuda-7-streams-simplify-concurrency/

====================================================

如何实现nvidia显卡的cuda的多kernel并发执行？？？

主要参考：GPU Pro Tip: CUDA 7 Streams Simplify Concurrency

====================================================

2022年11月11日更新

在nvidia显卡的CUDA计算中default stream是比较特殊的存在，任何没有指定的GPU上的操作都是在default stream中执行的，而default stream队列中操作的执行有一个特定就是会独占整个CPU进程在GPU端创建的context环境，也就是说default stream中的操作执行的话不论是否有其他stream队列中有操作都需要等待default stream中的操作结束才可以执行；其他non-default stream队列中如果有操作在执行，那么default stream中的操作将阻塞，直至独占整个context。如果default stream队列和non-default stream队列中都有操作，那么就会根据CPU端发送到GPU端执行命令的先后进行排队执行。

====================================================

编写多流并行（多kernel并行）的CUDA代码：（源自：GPU Pro Tip: CUDA 7 Streams Simplify Concurrency）

const int N = 1 << 20;

__global__ void kernel(float *x, int n)

{

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {

        x[i] = sqrt(pow(3.14159,i));

    }

}

int main()

{

    const int num_streams = 8;

    cudaStream_t streams[num_streams];

    float *data[num_streams];

    for (int i = 0; i < num_streams; i++) {

        cudaStreamCreate(&streams[i]);

        cudaMalloc(&data[i], N * sizeof(float));

        // launch one worker kernel per stream

        kernel<<<1, 64, 0, streams[i]>>>(data[i], N);

        // launch a dummy kernel on the default stream

        kernel<<<1, 1>>>(0, 0);

    }

    cudaDeviceReset();

    return 0;

}

编译：

nvcc ./stream_test.cu -o stream_legacy

使用NVIDIA Visual Profiler (nvvp)查看运行情况：

可以看到虽然在代码中将多个kernel的操作写在了不同的stream队列中，而且cuda代码运行的过程中也确实将不同的kernel操作放入到了不同的stream中执行，但是不同的stream的kernel并没有实现并行而是仍然串行。其主要原因就是不同的stream队列操作后都有一个default stream队列的操作，在默认的编译条件下default stream队列中的操作将阻塞其他stream队列中的操作，也是修改代码，剔除掉default stream队列中的操作：

// launch a dummy kernel on the default stream
kernel<<<1, 1>>>(0, 0);

修改后代码：

const int N = 1 << 20;

__global__ void kernel(float *x, int n)

{

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {

        x[i] = sqrt(pow(3.14159,i));

    }

}

int main()

{

    const int num_streams = 8;

    cudaStream_t streams[num_streams];

    float *data[num_streams];

    for (int i = 0; i < num_streams; i++) {

        cudaStreamCreate(&streams[i]);

        cudaMalloc(&data[i], N * sizeof(float));

        // launch one worker kernel per stream

        kernel<<<1, 64, 0, streams[i]>>>(data[i], N);

        // launch a dummy kernel on the default stream

        // kernel<<<1, 1>>>(0, 0);

    }

    cudaDeviceReset();

    return 0;

}

编译：

nvcc ./stream_test.cu -o stream_legacy

使用NVIDIA Visual Profiler (nvvp)查看运行情况：

可以看到在有没有default stream队列的操作后所有其他stream队列中的kernel操作实现了并行。

如果在编译cuda代码的时候加入参数--default-stream per-thread，就可以将default stream队列的操作映射到其他stream队列中，这样就不会使其他stream队列被default stream队列阻塞，代码如下（与第一个代码相同）：

const int N = 1 << 20;

__global__ void kernel(float *x, int n)

{

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {

        x[i] = sqrt(pow(3.14159,i));

    }

}

int main()

{

    const int num_streams = 8;

    cudaStream_t streams[num_streams];

    float *data[num_streams];

    for (int i = 0; i < num_streams; i++) {

        cudaStreamCreate(&streams[i]);

        cudaMalloc(&data[i], N * sizeof(float));

        // launch one worker kernel per stream

        kernel<<<1, 64, 0, streams[i]>>>(data[i], N);

        // launch a dummy kernel on the default stream

        kernel<<<1, 1>>>(0, 0);

    }

    cudaDeviceReset();

    return 0;

}

编译命令：

nvcc --default-stream per-thread ./stream_test.cu -o stream_per-thread

使用NVIDIA Visual Profiler (nvvp)查看运行情况：

可以看到加入编译参数--default-stream per-thread后所有的原先在default stream中的kernel操作都被映射到了stream 15队列中，并且stream 15队列中的kernel操作没有implicit隐式的与其他stream队列中的操作进行同步。

-----------------------------------------------------

如果同样的cuda操作使用CPU端多线程调用并且将每次的kernel调用都默认使用default stream队列来运行操作，那么效果如何呢？

给出代码：

#include <pthread.h>

#include <stdio.h>

const int N = 1 << 20;

__global__ void kernel(float *x, int n)

{

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {

        x[i] = sqrt(pow(3.14159,i));

    }

}

void *launch_kernel(void *dummy)

{

    float *data;

    cudaMalloc(&data, N * sizeof(float));

    kernel<<<1, 64>>>(data, N);

    cudaStreamSynchronize(0);

    return NULL;

}

int main()

{

    const int num_threads = 8;

    pthread_t threads[num_threads];

    for (int i = 0; i < num_threads; i++) {

        if (pthread_create(&threads[i], NULL, launch_kernel, 0)) {

            fprintf(stderr, "Error creating threadn");

            return 1;

        }

    }

    for (int i = 0; i < num_threads; i++) {

        if(pthread_join(threads[i], NULL)) {

            fprintf(stderr, "Error joining threadn");

            return 2;

        }

    }

    cudaDeviceReset();

    return 0;

}

默认编译：

nvcc ./pthread_test.cu -o pthreads_legacy

使用NVIDIA Visual Profiler (nvvp)查看运行情况：

可以看到虽然在CPU端使用多线程调用kernel操作，但是所有的kernel操作都是使用的default stream队列，因此并不能实现多个kernel操作的GPU端并行。

如果在编译cuda代码的时候加入参数--default-stream per-thread，就可以将default stream队列的操作映射到其他stream队列中（代码与上个代码相同）：

加参数编译：

nvcc --default-stream per-thread ./pthread_test.cu -o pthreads_per_thread

使用NVIDIA Visual Profiler (nvvp)查看运行情况：

可以看到加参数编译后CPU端的每个线程调用的kernel都映射到了一个新的stream队列中，实现了GPU端的多kernel并行操作。

===========================================================

看到前面的内容可以知道，想要GPU上进行多kernel的并行需要把不同的kernel操作写在不同的stream队列中，并且一定要在编译的时候加参数：--default-stream per-thread，虽然在单进程单线程的情况下不使用default stream队列存在也可以的特例。

那么参数：--default-stream per-thread是什么含义呢？

从上面的英文内容我们可以知道默认情况下每个CUDA代码在GPU上运行都会在context下有一个default stream的kernel队列，而这个default stream队列中的kernel执行会阻塞其他stream队列中的kernel操作，从而导致多个stream队列中的kernel操作无法并行。在编译的时候加入参数--default-stream per-thread，就可以使CPU端的每个线程默认调用的default stream队列映射到一个non-default stream队列中，这样就避免了因为default stream队列引起的同步阻塞。

====================================================

一个关于CUDA多流并发（多kernel并发）的PPT：

https://developer.download.nvidia.com/CUDA/training/StreamsAndConcurrencyWebinar.pdf

如何实现nvidia显卡的cuda的多kernel并发执行？？？的更多相关文章

Ubuntu NVIDIA显卡驱动+CUDA安装(多版本共存)
NVIDIA显卡驱动 1.禁止集成的nouveau驱动 solution 1 (recommand) # 直接移除这个驱动(备份出来) mv /lib/modules/3.0.0-12-generic ...
CUDA编程接口:异步并发执行的概念和API
1.主机和设备间异步执行为了易于使用主机和设备间的异步执行,一些函数是异步的:在设备完全完成任务前,控制已经返回给主机线程了.它们是: 内核发射; 设备间数据拷贝函数; 主机和设备内拷贝小于64KB ...
Ubuntu 16.04 + Nvidia 显卡驱动 + Cuda 8.0 （问题总结 + 解决方案）【转】
本文转载自:https://blog.csdn.net/Zafir_410/article/details/73188228 前言前面好一阵子忙于写论文和改论文,好久没有做新实验了,最近又回到做实验 ...
NVIDIA 显卡与 CUDA 在深度学习中的应用
CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台. 0. 配置显卡驱动的下载地址:Drivers - Download N ...
获取显卡的cuda算力
获取nvidia显卡的cuda算力,在编译cuda相关代码时候可能用到. 前提: 安装了visual studio 安装了cuda(cuda应该在vs之后安装) 安装了cmake 代码 https:/ ...
Kali-linux安装并配置NVIDIA显卡驱动
显卡驱动程序就是用来驱动显卡的程序,它是硬件所对应的软件.驱动程序即添加到操作系统中的一小块代码,其中包含有关硬件设备的信息.有了此信息,计算机就可以与设备进行通信.驱动程序是硬件厂商根据操作系统编写 ...
ubuntu 16.04安装nVidia显卡驱动和cuda/cudnn踩坑过程
安装深度学习框架需要使用cuda/cudnn(GPU)来加速计算,而安装cuda/cudnn,首先需要安装nvidia的显卡驱动. 我在安装的整个过程中碰到了驱动冲突,循环登录两个问题,以至于最后不得 ...
NVIDIA 显卡信息（CUDA信息的查看）
1. nvidia-smi 查看显卡信息 nvidia-smi 指的是 NVIDIA System Management Interface: 在安装完成 NVIDIA 显卡驱动之后,对于 windo ...
安装Nvidia显卡驱动、CUDA和cuDNN的方法（jsxyhelu整编）
Nvidia显卡驱动.CUDA和cuDNN一般都是同时安装的,这里整理的是我成功运行的最简单的方法. 一.Nvidia显卡驱动 1.1 在可以进入图形界面的情况下直接在"软件和更新&quo ...
【CUDA开发】CUDA的安装、Nvidia显卡型号及测试
说明:想要让Theano在Windows8.1下能利用GPU并行运算,必须有支持GPU并行运算的Nvidia显卡,且要安装CUDA,千万不要电脑上是Intel或AMD的显卡,却要编写CUDA. 文中用 ...

随机推荐

disabled 和 readonly 都是 HTML 表单元素的属性，它们有一些相同点和不同点。
disabled 和 readonly 都是 HTML 表单元素的属性,它们有一些相同点和不同点. 相同点: disabled 和 readonly 属性都可以用于表单中的输入框.文本域等元素,用于控 ...
Jenkins创建任务进行构建项目配置
总体构建项目的操作步骤分为Generna(总的描述).源码管理.构建触发器.构建环境.构建.构建后的操作 1.Dashboard-> new item > 新建一个任务,选择freest ...
“古剑山”初赛Misc 幸运饼干
"古剑山"初赛Misc 幸运饼干考点:Chrome的Cookies解密赛中思路 bandzip极限压缩hint.jpg后打明文攻击压缩包密码:sv@1v3z ┌──(root ...
Python入门学习介绍
什么是Python? Python它是一种直译式,面向对象,解释式的脚本语言.它和Java,C/C++,Go语言一样都是高级语言,但由于它是解释式语言,所以运行速度会比Java,C/C++等语言慢(虽 ...
Mybatis xxxMapper.xml 三表关联，配置文件
VideoMapper.xml <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE mappe ...
SpringBoot全局异常，返回JSON数据
全局异常处理为什么要配全局异常? 不配全局服务端报错场景,1/0.空指针等配置好处统一的错误页面或错误码对用户更友好配置全局异常第一步类添加注解 @ControllerAdvicce,如果 ...
转载 | [AcSaveAsType -cad版本代号对应数字 ] & [AutoCAD的DWG文件格式版本代号列表]
1. AcSaveAsType -cad版本代号对应数字 doc.SaveAs("D:\AutoCAD\1.dwg", 61) # 将当前文件另存为PyAutoCAD_SaveA ...
leetcode简单(数组,字符串,链表)：[1, 9, 13, 14, 20, 21, 26, 27, 35, 58]
目录 1. 两数之和 9. 回文数 13. 罗马数字转整数 14. 最长公共前缀 20. 有效的括号 21. 合并两个有序链表 26. 删除有序数组中的重复项 27. 移除元素 35. 搜索插入位置 ...
oeasy教您玩转python - 001 - # 换行插入
先跑起来 Python 什么是 Python? Python 很好用适合初学者而且在各个领域都很强大后来居上上图可以点开 python3 早已有之最终逆风翻盘当然 java 也 ...
IPFS 解决国内 docker mirror 封锁
IPFS 解决国内 docker mirror 封锁内容仅用于研究,帮助开发者学习技术知识,以建设祖国 IPFS 技术是当前 Web3 的主要基建设施,提供去中心化存储,以及 libp2p 的去中心 ...

如何实现nvidia显卡的cuda的多kernel并发执行？？？

CPU端多进程/多线程调用CUDA是否可以加速？？？

如何实现nvidia显卡的cuda的多kernel并发执行？？？的更多相关文章

随机推荐

热门专题