技术背景

前面的一篇文章中介绍了在CUDA中使用宏来监测CUDA C函数或者Kernel函数的运行报错问题。同样的思路，我们可用写一个用于统计函数运行时长的宏，这样不需要使用额外的工具来对函数体的性能进行测试。

文件准备

因为这里的宏改动，主要涉及CUDA头文件和CUDA文件的修改，所以Cython文件和Python文件还有异常捕获宏我们还是复用这篇文章里面用到的。测试内容是，定义一个原始数组和一个索引数组，输出索引的结果数组。

wrapper.pyx

# cythonize -i -f wrapper.pyx

import numpy as np

cimport numpy as np

cimport cython

cdef extern from "<dlfcn.h>" nogil:

    void *dlopen(const char *, int)

    char *dlerror()

    void *dlsym(void *, const char *)

    int dlclose(void *)

    enum:

        RTLD_LAZY

ctypedef int (*GatherFunc)(float *source, int *index, float *res, int N, int M) noexcept nogil

cdef void* handle = dlopen('/path/to/libcuindex.so', RTLD_LAZY)

@cython.boundscheck(False)

@cython.wraparound(False)

cpdef float[:] cuda_gather(float[:] x, int[:] idx):

    cdef:

        GatherFunc Gather

        int success

        int N = idx.shape[0]

        int M = x.shape[0]

        float[:] res = np.zeros((N, ), dtype=np.float32)

    Gather = <GatherFunc>dlsym(handle, "Gather")

    success = Gather(&x[0], &idx[0], &res[0], N, M)

    return res

while not True:

    dlclose(handle)

test_gather.py

import numpy as np

np.random.seed(0)

from wrapper import cuda_gather

M = 1024 * 1024 * 128

N = 1024 * 1024

x = np.random.random((M,)).astype(np.float32)

idx = np.random.randint(0, M, (N,)).astype(np.int32)

res = np.asarray(cuda_gather(x, idx))

print (res.shape)

print ((res==x[idx]).sum())

error.cuh

#pragma once

#include <stdio.h>

#define CHECK(call) do{const cudaError_t error_code = call; if (error_code != cudaSuccess){printf("CUDA Error:\n"); printf("    File:   %s\n", __FILE__); printf("    Line:   %d\n", __LINE__); printf("    Error code: %d\n", error_code); printf("    Error text: %s\n", cudaGetErrorString(error_code)); exit(1);}} while (0)

计时宏

这里增加一个用于计时的record.cuh头文件，里面写一个TIME_CUDA_FUNCTION宏，然后在CUDA中需要统计的函数前调用，就可以输出CUDA函数的运行时长了。

#pragma once

#include <stdio.h>

#include <cuda_runtime.h>

// 宏定义，用于测量CUDA函数的执行时间

#define TIME_CUDA_FUNCTION(func) \

    do { \

        cudaEvent_t start, stop; \

        float elapsedTime; \

        cudaEventCreate(&start); \

        cudaEventCreate(&stop); \

        cudaEventRecord(start, NULL); \

        \

        func; \

        \

        cudaEventRecord(stop, NULL); \

        cudaEventSynchronize(stop); \

        cudaEventElapsedTime(&elapsedTime, start, stop); \

        printf("Time taken by function %s is: %f ms\n", #func, elapsedTime); \

        \

        cudaEventDestroy(start); \

        cudaEventDestroy(stop); \

    } while (0)

计时宏的使用

我们在CUDA文件cuda_index.cu中调用record.cuh里面的计时宏，这里用来统计一个CUDA核函数的执行时间：

// nvcc -shared ./cuda_index.cu -Xcompiler -fPIC -o ./libcuindex.so

#include <stdio.h>

#include "cuda_index.cuh"

#include "error.cuh"

#include "record.cuh"

void __global__ GatherKernel(float *source, int *index, float *res, int N){

    int idx = blockIdx.x * blockDim.x + threadIdx.x;

    if (idx < N){

        res[idx] = source[index[idx]];

    }

}

extern "C" int Gather(float *source, int *index, float *res, int N, int M){

    float *souce_device, *res_device;

    int *index_device;

    CHECK(cudaMalloc((void **)&souce_device, M * sizeof(float)));

    CHECK(cudaMalloc((void **)&res_device, N * sizeof(float)));

    CHECK(cudaMalloc((void **)&index_device, N * sizeof(int)));

    CHECK(cudaMemcpy(souce_device, source, M * sizeof(float), cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(res_device, res, N * sizeof(float), cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(index_device, index, N * sizeof(int), cudaMemcpyHostToDevice));

    int block_size = 1024;

    int grid_size = (N + block_size - 1) / block_size;

    TIME_CUDA_FUNCTION((GatherKernel<<<grid_size, block_size>>>(souce_device, index_device, res_device, N)));

    CHECK(cudaGetLastError());

    CHECK(cudaDeviceSynchronize());

    CHECK(cudaMemcpy(res, res_device, N * sizeof(float), cudaMemcpyDeviceToHost));

    CHECK(cudaFree(souce_device));

    CHECK(cudaFree(index_device));

    CHECK(cudaDeviceSynchronize());

    CHECK(cudaFree(res_device));

    CHECK(cudaDeviceReset());

    return 1;

}

需要注意的是，TIME_CUDA_FUNCTION宏只能有一个输入，但是使用CUDA核函数的时候实际上会被当作是两个输入，因此我们需要将CUDA核函数用括号再封装起来。

输出结果

最终按照这篇文章中的运行流程，可以得到这样的输出结果：

Time taken by function (GatherKernel<<<grid_size, block_size>>>(souce_device, index_device, res_device, N)) is: 0.584224 ms

(1048576,)

1048576

这里CUDA核函数的运行时长被正确的格式化输出了。

返回耗时数值

除了在CUDA中直接打印耗时的数值，我们还可以修改record.cuh中的宏，让其返回耗时数值：

#pragma once

#include <stdio.h>

#include <cuda_runtime.h>

// 宏定义，用于测量CUDA函数的执行时间

#define TIME_CUDA_FUNCTION(func) \

    do { \

        cudaEvent_t start, stop; \

        float elapsedTime; \

        cudaEventCreate(&start); \

        cudaEventCreate(&stop); \

        cudaEventRecord(start, NULL); \

        \

        func; \

        \

        cudaEventRecord(stop, NULL); \

        cudaEventSynchronize(stop); \

        cudaEventElapsedTime(&elapsedTime, start, stop); \

        printf("Time taken by function %s is: %f ms\n", #func, elapsedTime); \

        \

        cudaEventDestroy(start); \

        cudaEventDestroy(stop); \

    } while (0)

// 宏定义，用于测量CUDA函数的执行时间并返回该时间

#define GET_CUDA_TIME(func) \

    ({ \

        cudaEvent_t start, stop; \

        float elapsedTime = 0.0f; \

        cudaEventCreate(&start); \

        cudaEventCreate(&stop); \

        cudaEventRecord(start, NULL); \

        \

        func; \

        \

        cudaEventRecord(stop, NULL); \

        cudaEventSynchronize(stop); \

        cudaEventElapsedTime(&elapsedTime, start, stop); \

        \

        cudaEventDestroy(start); \

        cudaEventDestroy(stop); \

        \

        elapsedTime; \

    })

修改头文件cuda_index.cuh，因为这里我们需要返回一个运行时长的float数值，不再是int类型了：

#include <stdio.h>

extern "C" float Gather(float *source, int *index, float *res, int N, int M);

最后再对应修改下cuda_index.cu中的内容：

// nvcc -shared ./cuda_index.cu -Xcompiler -fPIC -o ./libcuindex.so

#include <stdio.h>

#include "cuda_index.cuh"

#include "error.cuh"

#include "record.cuh"

void __global__ GatherKernel(float *source, int *index, float *res, int N){

    int idx = blockIdx.x * blockDim.x + threadIdx.x;

    if (idx < N){

        res[idx] = source[index[idx]];

    }

}

extern "C" float Gather(float *source, int *index, float *res, int N, int M){

    float *souce_device, *res_device;

    int *index_device;

    CHECK(cudaMalloc((void **)&souce_device, M * sizeof(float)));

    CHECK(cudaMalloc((void **)&res_device, N * sizeof(float)));

    CHECK(cudaMalloc((void **)&index_device, N * sizeof(int)));

    CHECK(cudaMemcpy(souce_device, source, M * sizeof(float), cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(res_device, res, N * sizeof(float), cudaMemcpyHostToDevice));

    CHECK(cudaMemcpy(index_device, index, N * sizeof(int), cudaMemcpyHostToDevice));

    int block_size = 1024;

    int grid_size = (N + block_size - 1) / block_size;

    float timeTaken = GET_CUDA_TIME((GatherKernel<<<grid_size, block_size>>>(souce_device, index_device, res_device, N)));

    CHECK(cudaGetLastError());

    CHECK(cudaDeviceSynchronize());

    CHECK(cudaMemcpy(res, res_device, N * sizeof(float), cudaMemcpyDeviceToHost));

    CHECK(cudaFree(souce_device));

    CHECK(cudaFree(index_device));

    CHECK(cudaDeviceSynchronize());

    CHECK(cudaFree(res_device));

    CHECK(cudaDeviceReset());

    return timeTaken;

}

这样就可以把函数运行耗时的数值返回给Cython文件，然后在Cython文件wrapper.pyx中打印耗时：

# cythonize -i -f wrapper.pyx

import numpy as np

cimport numpy as np

cimport cython

cdef extern from "<dlfcn.h>" nogil:

    void *dlopen(const char *, int)

    char *dlerror()

    void *dlsym(void *, const char *)

    int dlclose(void *)

    enum:

        RTLD_LAZY

ctypedef float (*GatherFunc)(float *source, int *index, float *res, int N, int M) noexcept nogil

cdef void* handle = dlopen('/home/dechin/projects/gitee/dechin/tests/cuda/libcuindex.so', RTLD_LAZY)

@cython.boundscheck(False)

@cython.wraparound(False)

cpdef float[:] cuda_gather(float[:] x, int[:] idx):

    cdef:

        GatherFunc Gather

        float timeTaken

        int N = idx.shape[0]

        int M = x.shape[0]

        float[:] res = np.zeros((N, ), dtype=np.float32)

    Gather = <GatherFunc>dlsym(handle, "Gather")

    timeTaken = Gather(&x[0], &idx[0], &res[0], N, M)

    print (timeTaken)

    return res

while not True:

    dlclose(handle)

最后再通过Python模块调用（无需改动），输出结果为：

0.6107839941978455

(1048576,)

1048576

这里的单位是ms。

总结概要

这篇文章主要介绍了一个CUDA入门的技术：使用CUDA头文件写一个专门用于CUDA函数运行时长统计的宏，这样就可以统计目标Kernel函数的运行时长。可以直接在CUDA中打印相应的数值，也可以回传到Cython或者Python中进行打印。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/cuda-time-record.html

作者ID：DechinPhy

更多原著文章：https://www.cnblogs.com/dechinphy/

请博主喝咖啡：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

CUDA时长统计的更多相关文章

Fragment时长统计那些事
注:本文同步发布于微信公众号:stringwu的互联网杂谈 frament时长统计那些事页面停留时长作为应用统计的北极星指标里的重要指标之一,统计用户在某个页面的停留时长则变得很重要.而Fragme ...
java 多线程执行时长统计
ExecutorService——shutdown方法和awaitTermination方法 shutdown方法:平滑的关闭ExecutorService,当此方法被调用时,ExecutorServ ...
windows 7 下,如何统计某文件夹下视频总时长
由于项目需要,我需要给系统加权限,这真是一个让人头疼的问题,如果要每个业务方法都加上权限判断逻辑,那真的不敢想象是多么大的工作量,日后有变动的话,我会不会发疯? 所以我必须利用之前学到的AOP编程,在 ...
使用opencv统计视频库的总时长
统计视频库里的视频文件的总时长废话不多说,直接上代码: /* * ================================================================== ...
统计 flv视频总时长
在学习孟媛的视频课程.网上能下载的是flv格式.那我在学习之前,我要统计一下这个课程的数量,他会用多长时间,这样方便我在学习过程中不断的回顾,进行时间管理.我大概就可以统计出来这个视频多长时间可以学完 ...
使用mediainfo工具统计每个视频文件（媒体文件）播放时长
需求 1.运营那边需要统计大量视频文件的播放时长,并汇总记录到excel表中,问我有什么方法搞定这边搜索了很多统计媒体文件时长的,主要有以下几种 1.使用java获取 2.使用python获取 3. ...
Hexo添加字数统计、阅读时长
统计插件配置 NexT 主题默认已经集成了文章[字数统计].[阅读时长]统计功能,如果我们需要使用,只需要在主题配置文件 _config.yml 中打开 wordcount 统计功能即可.如下所示: ...
bash 统计在线时长最长的十个玩/统计一天内一直处于不活跃状态的玩家的百分比
1.某游戏的客户端每隔5分钟会向服务端报告一次玩家的账户积分,如果两次报告的时间间隔不大于5分钟,认为该玩家在这5分钟内在线,假设报告数据的格式如下: IP Dat ...
iNeuOS工业互联网操作系统，脚本化实现设备运行时长和效率计算与统计
目录 1. 概述... 2 2. 实时采集开停状态... 2 3. 增加虚拟设备... 2 4. 脚本统计和计算设备运行时长... 4 5. ...
js用img代替ajax js心跳向服务器定时传送参数主要计算用户在线时长
html: <!doctype html><html><head><meta charset="utf-8"><title&g ...

随机推荐

Rocky Linux8升级9随记
发现Rocky Linux已经升级了9.0版本,看着自己用着的8.5版本,跃跃欲试,于是就索性升级了.两者的支持年限没有太大的差别,先说我的想法:升不升级无所谓. 并不是9.0有什么特别牛的特性,只是 ...
Kubernetes 服务发现监控Endpoints
监控 Pod之前的apiserver 实际上就是一种特殊的 Endpoints,现在我们同样来配置一个任务用来专门发现普通类型的 Endpoint,其实就是 Service 关联的 Pod 列表,由于 ...
Qt数据库应用12-通用数据库清理
一.前言很多项目如果需要存储很多日志记录比如运行日志,时间长了记录数量非常多,数据库体积不断增大,对应数据库表的增删改查的效率不断降低,为了消除这几个影响,需要有一套机制,不断将早期的数据清理,清理 ...
Qt通用方法及类库7
函数名 //int转字节数组 static QByteArray intToByte(int i); static QByteArray intToByteRec(int i); //字节数组转int ...
IM技术分享：万人群聊消息投递方案的思考和实践
本文由融云技术团队原创分享,原题"技术实践丨万人群聊的消息分发控速方案",为使文章更好理解,内容有修订. 1.引言传统意义上的IM群聊,通常都是像微信这样的500人群,或者QQ的 ...
网络编程入门从未如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！
本文由小枣君分享,文案:小枣君.漫画:杨洋,来自鲜枣课堂,有少许改动,原文链接见文末. 1.引言网络编程能力对于即时通讯技术开发者来说是基本功,而计算机网络又是网络编程的理论根基,因而深刻准确地理解 ...
浅谈Spring Data ElasticSearch
Spring Data Spring Data 帮助我们避免了一些样板式代码,比如我们要定义一个接口,可以直接继承接口ElasticSearchRepository接口,这样Spring Data就帮 ...
在 ASP.NET Core WebAPI如何实现版本控制？
在 ASP.NET Core WebAPI 中实现版本控制(Versioning)是一种常见的做法,用于管理 API 的演进和兼容性.通过版本控制,我们可以在不破坏现有客户端的情况下引入新功能或修改现 ...
AI Editor 真的被惊到了
引言 AI 辅助编程工具层出不穷,也尝试过不少 AI 编程辅助工具,但效果都不太理想,提示的代码命中率并不高,但却严重影响了编码的流畅性,并且聊天对话的时候,多数都需要手动引用代码,即使引用了代码,也 ...
G1原理—4.G1垃圾回收的过程之Young GC
大纲 1.G1的YGC过程 2.YGC并行处理阶段的过程 3.YGC串行处理阶段的过程(一) 4.YGC串行处理阶段的过程(二) 5.整个YGC的执行流程总结 1.G1的YGC过程 (1)YGC相关的 ...

CUDA时长统计