CUDA多个流的使用

CUDA中使用多个流并行执行数据复制和核函数运算可以进一步提高计算性能。以下程序使用2个流执行运算：

#include "cuda_runtime.h"

#include <iostream>

#include <stdio.h>

#include <math.h>    

#define N (1024*1024)

#define FULL_DATA_SIZE N*20    

__global__ void kernel(int* a, int *b, int*c)

{

	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)

	{

		c[threadID] = (a[threadID] + b[threadID]) / 2;

	}

}

int main()

{

	//获取设备属性

	cudaDeviceProp prop;

	int deviceID;

	cudaGetDevice(&deviceID);

	cudaGetDeviceProperties(&prop, deviceID);

	//检查设备是否支持重叠功能

	if (!prop.deviceOverlap)

	{

		printf("No device will handle overlaps. so no speed up from stream.\n");

		return 0;

	}

	//启动计时器

	cudaEvent_t start, stop;

	float elapsedTime;

	cudaEventCreate(&start);

	cudaEventCreate(&stop);

	cudaEventRecord(start, 0);

	//创建两个CUDA流

	cudaStream_t stream, stream1;

	cudaStreamCreate(&stream);

	cudaStreamCreate(&stream1);

	int *host_a, *host_b, *host_c;

	int *dev_a, *dev_b, *dev_c;

	int *dev_a1, *dev_b1, *dev_c1;

	//在GPU上分配内存

	cudaMalloc((void**)&dev_a, N * sizeof(int));

	cudaMalloc((void**)&dev_b, N * sizeof(int));

	cudaMalloc((void**)&dev_c, N * sizeof(int));

	cudaMalloc((void**)&dev_a1, N * sizeof(int));

	cudaMalloc((void**)&dev_b1, N * sizeof(int));

	cudaMalloc((void**)&dev_c1, N * sizeof(int));

	//在CPU上分配页锁定内存

	cudaHostAlloc((void**)&host_a, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_b, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_c, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	//主机上的内存赋值

	for (int i = 0; i < FULL_DATA_SIZE; i++)

	{

		host_a[i] = i;

		host_b[i] = FULL_DATA_SIZE - i;

	}

	for (int i = 0; i < FULL_DATA_SIZE; i += 2 * N)

	{

		cudaMemcpyAsync(dev_a, host_a + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		cudaMemcpyAsync(dev_b, host_b + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		cudaMemcpyAsync(dev_a1, host_a + i + N, N * sizeof(int), cudaMemcpyHostToDevice, stream1);

		cudaMemcpyAsync(dev_b1, host_b + i + N, N * sizeof(int), cudaMemcpyHostToDevice, stream1);

		kernel << <N / 1024, 1024, 0, stream >> > (dev_a, dev_b, dev_c);

		kernel << <N / 1024, 1024, 0, stream1 >> > (dev_a, dev_b, dev_c1);

		cudaMemcpyAsync(host_c + i, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost, stream);

		cudaMemcpyAsync(host_c + i + N, dev_c1, N * sizeof(int), cudaMemcpyDeviceToHost, stream1);

	}

	// 等待Stream流执行完成

	cudaStreamSynchronize(stream);

	cudaStreamSynchronize(stream1);

	cudaEventRecord(stop, 0);

	cudaEventSynchronize(stop);

	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间： " << elapsedTime << std::endl;

	//输出前10个结果

	for (int i = 0; i < 10; i++)

	{

		std::cout << host_c[i] << std::endl;

	}

	getchar();

	// free stream and mem

	cudaFreeHost(host_a);

	cudaFreeHost(host_b);

	cudaFreeHost(host_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	cudaFree(dev_c);

	cudaFree(dev_a1);

	cudaFree(dev_b1);

	cudaFree(dev_c1);

	cudaStreamDestroy(stream);

	cudaStreamDestroy(stream1);

	return 0;

}

使用2个流，执行时间16ms，基本上是使用一个流消耗时间的二分之一。

CUDA多个流的使用的更多相关文章

CUDA 7 Stream流简化并发性
CUDA 7 Stream流简化并发性异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU .为此,应用程序必须在多个处理器上并发执行函数. CUDA 应用程序通过在 streams ...
CUDA中的流与事件
流:CUDA流很像CPU的线程,一个CUDA流中的操作按顺序进行,粗粒度管理多个处理单元的并发执行. 通俗的讲,流用于并行运算,比如处理同一副图,你用一个流处理左边半张图片,再用第二个流处理右边半张图 ...
【CUDA 基础】6.5 流回调
title: [CUDA 基础]6.5 流回调 categories: - CUDA - Freshman tags: - 流回调 toc: true date: 2018-06-20 21:56:1 ...
【CUDA 基础】6.1 流和事件概述
title: [CUDA 基础]6.1 流和事件概述 categories: - CUDA - Freshman tags: - 流 - 事件 toc: true date: 2018-06-10 2 ...
【CUDA 基础】6.0 流和并发
title: [CUDA 基础]6.0 流和并发 categories: - CUDA - Freshman tags: - 流 - 事件 - 网格级并行 - 同步机制 - NVVP toc: tru ...
CUDA从入门到精通
http://blog.csdn.net/augusdi/article/details/12833235 CUDA从入门到精通(零):写在前面在老板的要求下.本博主从2012年上高性能计算课程開始 ...
CUDA从入门到精通 - Augusdi的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/augusdi/article/details/12833235 CUDA从入门到精通 - Augusdi的专栏 - 博客频道 - CSDN.NET CUDA ...
CUDA C Programming Guide 在线教程学习笔记 Part 10【坑】
▶ 动态并行. ● 动态并行直接从 GPU 上创建工作,可以减少主机和设备间数据传输,在设备线程中调整配置.有数据依赖的并行工作可以在内核运行时生成,并利用 GPU 的硬件调度和负载均衡.动态并行要求 ...
CUDA Samples: Streams' usage
以下CUDA sample是分别用C++和CUDA实现的流的使用code,并对其中使用到的CUDA函数进行了解说,code参考了<GPU高性能编程CUDA实战>一书的第十章,各个文件内容如 ...

随机推荐

Hypervisor scheduler
Techniques for configuring a hypervisor scheduler to make use of cache topology of processors and ph ...
互信息 & 卡方 - 文本挖掘
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的.是.在.了”等停用词.这里介绍两种常用的特征选择方 ...
UVA 11889 - Benefit 可直接枚举
看题传送门题目大意: 输入两个整数A和C,求最小的整数B,使得lcm(A,B)=C.如果无解,输出NO SOLUTION 思路: A*B=C*gcd(A,B) 所以 B / gcd(A,B) = C ...
Java Tread多线程（2）多线程安全问题
作者 :卿笃军原文地址:http://blog.csdn.net/qingdujun/article/details/39348093 本文演示,Tread多线程安全问题,以及几种解决多线程安全方式 ...
[spark]spark 编程教程
参考: 英文:https://spark.apache.org/docs/latest/programming-guide.html 中文:http://www.cnblogs.com/lujin ...
stm32的复用与映射
摘自:https://blog.csdn.net/lincheng15/article/details/51789093 摘自:http://www.51hei.com/bbs/dpj-36242-1 ...
c#之mysql四种带事务批量插入
前言对于像我这样的业务程序员开发一些表单内容是家常便饭的事情,说道表单我们都避免不了多行内容的提交,多行内容保存,自然要用到数据库,如果循环打扰我数据库,数据库也会觉得很累,从而增加数据库服务器压 ...
ASIC DC综合的理解
ASIC DC综合的理解 DC综合流程输入设计文件+指定的工艺库文件+约束文件经过DC的综合,输出满足期望的门级网表及综合报告输入输出数据输入文件:设计文件(verilog等).工艺库(db) ...
随手可得的Application对象
在Android的开发其中,Application和Context对象应该是我们接触最多的对象了,特别是Context对象. 当我们在某个Activity或者Service其中时,因为它们本身就是Co ...
【跟我一起学Unity3D】代码中分割图片而且载入帧序列动画
在Cocos2dx中.对大图的处理已经封装好了一套自己的API,可是在Unity3D中貌似没有类似的API(好吧,实际上是有的,并且功能更强大),或者说我没找到. 只是这也在情理之中,毕竟Unity3 ...

CUDA多个流的使用

CUDA多个流的使用的更多相关文章

随机推荐

热门专题