0_Simple__simpleCallback
▶ 学习回调函数的基本概念,并在CUDA的任务流中插入基于CPU的主机函数,作为回调函数使用。
▶ 源代码(合并了 3 个源文件,删掉了没有用到的部分)
// simpleCallback.cu
#include <stdio.h>
#include <windows.h>
#include <cuda_runtime.h>
#include "device_launch_parameters.h"
#include <helper_functions.h>
#include <helper_cuda.h> #define N_WORKLOAD 8
#define BLOCK 512
#define ELEMENT 100000 struct CUTBarrier // 线程墙
{
CRITICAL_SECTION criticalSection; // Windows 中有关线程的结构
HANDLE barrierEvent;
int releaseCount;
int count;
}; CUTBarrier thread_barrier; struct heterogeneous_workload // 用于分配工作的结构
{
int id; // 工作编号
int cudaDeviceID; // 执行工作的设备号
int *h_data;
int *d_data;
cudaStream_t stream; // 使用的流号(一个工作使用一条流)
bool success; // 检查结果是否正确的标志
}; HANDLE cutStartThread(unsigned (WINAPI * func)(void *), void *data) // 创建新线程,注意函数指针的形式
{
return CreateThread(NULL, , (LPTHREAD_START_ROUTINE)func, data, , NULL);
} CUTBarrier cutCreateBarrier(int releaseCount) // 创建线程墙
{
CUTBarrier barrier;
InitializeCriticalSection(&barrier.criticalSection);
barrier.barrierEvent = CreateEvent(NULL, TRUE, FALSE, TEXT("BarrierEvent"));
barrier.count = ;
barrier.releaseCount = releaseCount;
return barrier;
} void cutIncrementBarrier(CUTBarrier *barrier) // 线程墙判断线程工作是否已经全部结束
{
int myBarrierCount;
EnterCriticalSection(&barrier->criticalSection);
myBarrierCount = ++barrier->count;
LeaveCriticalSection(&barrier->criticalSection);
if (myBarrierCount >= barrier->releaseCount) // 发出的线程已经全部结束
SetEvent(barrier->barrierEvent);
} void cutWaitForBarrier(CUTBarrier *barrier) // 回收线程墙
{
WaitForSingleObject(barrier->barrierEvent, INFINITE);
} __global__ void incKernel(int *data, int N) // 将 data 中所有元素递增总线程个数次
{
int idx = blockIdx.x * blockDim.x + threadIdx.x; if (idx < N)
data[idx]++;
} unsigned WINAPI postprocess(void *void_arg)
{
heterogeneous_workload *workload = (heterogeneous_workload *)void_arg;
cudaSetDevice(workload->cudaDeviceID); getLastCudaError("Kernel execution failed"); // 检查GPU计算结果
workload->success = true;
for (int i = ; i < N_WORKLOAD; ++i)
workload->success &= (workload->h_data[i] == workload->id + i + ); cudaFree(workload->d_data);
cudaFreeHost(workload->h_data);
cudaStreamDestroy(workload->stream); printf("Workload %d finished!\n", workload->id); // 回调函数工作完成
cutIncrementBarrier(&thread_barrier); // 向线程墙发送工作完成的信号
return ;
} void CUDART_CB myStreamCallback(cudaStream_t stream, cudaError_t status, void *data)// 回调函数,参数格式固定
{
cutStartThread(postprocess, data); // 调用函数 postprocess 完成结果检查和内存释放
} unsigned WINAPI launch(void *void_arg)
{
heterogeneous_workload *workload = (heterogeneous_workload *)void_arg; // 初始化工作参数
cudaSetDevice(workload->cudaDeviceID);
cudaStreamCreate(&workload->stream);
cudaMalloc(&workload->d_data, ELEMENT * sizeof(int));
cudaHostAlloc(&workload->h_data, ELEMENT * sizeof(int), cudaHostAllocPortable);
for (int i = ; i < ELEMENT; ++i)
workload->h_data[i] = workload->id + i; // 每个 CPU 线程对应一条 CUDA 流,分别调度流的工作,可以并行,不阻塞 CPU 线程
cudaMemcpyAsync(workload->d_data, workload->h_data, ELEMENT * sizeof(int), cudaMemcpyHostToDevice, workload->stream);
incKernel << <(ELEMENT + BLOCK - ) / BLOCK, BLOCK, , workload->stream >> > (workload->d_data, ELEMENT);
cudaMemcpyAsync(workload->h_data, workload->d_data, ELEMENT * sizeof(int), cudaMemcpyDeviceToHost, workload->stream); cudaStreamAddCallback(workload->stream, myStreamCallback, workload, ); // 回调函数,调用主机函数放入 CUDA 流中,在这里用于检查 GPU 结果和回收内存
return ;
} int main(int argc, char **argv)
{
printf("\tStart.\n"); heterogeneous_workload *workloads = (heterogeneous_workload *)malloc(N_WORKLOAD * sizeof(heterogeneous_workload)); // 创建工作表
thread_barrier = cutCreateBarrier(N_WORKLOAD); // 创建线程墙,以便所有工作结束后回收 for (int i = ; i < N_WORKLOAD; ++i) // 分配任务
{
workloads[i].id = i;
workloads[i].cudaDeviceID = ; // 将任务全部分配给 0 号设备
cutStartThread(launch, &workloads[i]);
} cutWaitForBarrier(&thread_barrier); // 回收线程
printf("\n%d workloads all finished.\n", N_WORKLOAD); int success = ;
for (int i = ; i < N_WORKLOAD; success &= workloads[i].success, ++i); // 检查正确性
printf("\n\t%s\n", success ? "Correct." : "Failure."); free(workloads);
getchar();
return success;
}
● 输出结果
Start.
Work finished!
Work finished!
Work finished!
Work finished!
Work finished!
Work finished!
Work finished!
Work finished! workloads all finished. Correct.
▶ 涨姿势
● 回调函数的使用:首先在 cuda_runtime_api.h 中给出了能作为回调函数的主机函数格式,然后给出了回调函数的定义。回调函数需要给出流编号,回调函数指针,回调函数需要的参数,以及一个标志(不太清楚其意义,可能与回调函数是否等待流中所有其他任务是否完成后再开始有关)
#define CUDART_CB __stdcall
#define CUDARTAPI __stdcall // cudaStreamCallback_t 的定义
typedef void (CUDART_CB *cudaStreamCallback_t)(cudaStream_t stream, cudaError_t status, void *userData); // cudaStreamAddCallback 的定义
extern __host__ cudaError_t CUDARTAPI cudaStreamAddCallback(cudaStream_t stream, cudaStreamCallback_t callback, void *userData, unsigned int flags);
● 有关线程创建的一些参数
//winnt.h
typedef void* HANDLE; // HANDLE 原来就是 void*
//minwindef.h
typedef unsigned long DWORD;// DWORD 原来就是 unsigned long
0_Simple__simpleCallback的更多相关文章
随机推荐
- MUI开发记录
最近很久没有更新博客了,因为一直在学习前端h5 手机app的开发.曾经一度觉得自己css和js学得不错,进入到前端领域后才发现水很深~ HUuilder使用安卓模拟器 安卓模拟器有很多,我这里以夜神模 ...
- DialogFragment的应用
一.DialogFragment简单介绍: 1.基本概念 DialogFrament 指一个与fragment建立了关联的Dialog, 随fragment生, 随fragment死, 即Dialog ...
- RMQ-ST算法的理解与实现(C++)
RMQ-ST的含义 RMQ(Range Minimum/Maximum Query),即区间最值查询,是指这样一个问题:对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返 ...
- 剑指offer(纪念版) 面试题3:二维数组中的查找
题目:在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数. 第一种方法题目说不可行 ...
- 【笔记】php常用函数
phpusleep() 函数延迟代码执行若干微秒.unpack() 函数从二进制字符串对数据进行解包.uniqid() 函数基于以微秒计的当前时间,生成一个唯一的 ID.time_sleep_unti ...
- LNMP环境源码搭建
以前LNMP环境是由运维搭建,自己搭建的时候查找了很多资料,这是我见过的最棒的资料,将过程记录下来分享给大家 为啥使用LNMP而不是LAMP下面来谈谈Nginx的技能 Nginx是一个小巧而高效的Li ...
- Nim or not Nim? hdu3032 SG值打表找规律
Nim or not Nim? Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)T ...
- 1042 数字0-9的数量 1050 循环数组最大子段和 1062 序列中最大的数 1067 Bash游戏 V2 1092 回文字符串
1042 数字0-9的数量 基准时间限制:1 秒 空间限制:131072 KB 分值: 10 难度:2级算法题 给出一段区间a-b,统计这个区间内0-9出现的次数. 比如 10-19,1出现11次 ...
- 面向对象oop
类和对象 1.什么是类?什么是对象? 1)现实世界是由很多很多对象组成的 基于对象抽出了类 2)对象:真实存在的单个的个体 类:类型/类别,代表一类个体 3)类中可以包含: 3.1)所有对象所共有的属 ...
- python中如何不区分大小写的判断一个元素是否在一个列表中
python中判断某一个元素是否在一个列表中,可以使用关键字in 和 not in. 示例如下: 如果需要输出相应的信息,可以搭配使用if语句,这里不赘述. --------------------- ...