CUDA流（Stream）

CUDA流表示一个GPU操作队列，该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务，不同任务可以并行执行。使用CUDA流，首先要选择一个支持设备重叠（Device Overlap）功能的设备，支持设备重叠功能的GPU能够在执行一个CUDA核函数的同时，还能在主机和设备之间执行复制数据操作。

支持重叠功能的设备的这一特性很重要，可以在一定程度上提升GPU程序的执行效率。一般情况下，CPU内存远大于GPU内存，对于数据量比较大的情况，不可能把CPU缓冲区中的数据一次性传输给GPU，需要分块传输，如果能够在分块传输的同时，GPU也在执行核函数运算，这样的异步操作，就用到设备的重叠功能，能够提高运算性能。

以下程序演示单个流的使用步骤，对比使用流操作的性能提升，不使用流的情况：

#include "cuda_runtime.h"

#include <iostream>

#include <stdio.h>

#include <math.h>  

#define N (1024*1024)

#define FULL_DATA_SIZE N*20  

__global__ void kernel(int* a, int *b, int*c)

{

	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)

	{

		c[threadID] = (a[threadID] + b[threadID]) / 2;

	}

}

int main()

{

	//启动计时器

	cudaEvent_t start, stop;

	float elapsedTime;

	cudaEventCreate(&start);

	cudaEventCreate(&stop);

	cudaEventRecord(start, 0);

	int *host_a, *host_b, *host_c;

	int *dev_a, *dev_b, *dev_c;

	//在GPU上分配内存

	cudaMalloc((void**)&dev_a, FULL_DATA_SIZE * sizeof(int));

	cudaMalloc((void**)&dev_b, FULL_DATA_SIZE * sizeof(int));

	cudaMalloc((void**)&dev_c, FULL_DATA_SIZE * sizeof(int));

	//在CPU上分配可分页内存

	host_a = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	host_b = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	host_c = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	//主机上的内存赋值

	for (int i = 0; i < FULL_DATA_SIZE; i++)

	{

		host_a[i] = i;

		host_b[i] = FULL_DATA_SIZE - i;

	}

	//从主机到设备复制数据

	cudaMemcpy(dev_a, host_a, FULL_DATA_SIZE * sizeof(int), cudaMemcpyHostToDevice);

	cudaMemcpy(dev_b, host_b, FULL_DATA_SIZE * sizeof(int), cudaMemcpyHostToDevice);

	kernel << <FULL_DATA_SIZE / 1024, 1024 >> > (dev_a, dev_b, dev_c);

	//数据拷贝回主机

	cudaMemcpy(host_c, dev_c, FULL_DATA_SIZE * sizeof(int), cudaMemcpyDeviceToHost);

	//计时结束

	cudaEventRecord(stop, 0);

	cudaEventSynchronize(stop);

	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间： " << elapsedTime << std::endl;

	//输出前10个结果

	for (int i = 0; i < 10; i++)

	{

		std::cout << host_c[i] << std::endl;

	}

	getchar();

	cudaFreeHost(host_a);

	cudaFreeHost(host_b);

	cudaFreeHost(host_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	cudaFree(dev_c);

	return 0;

}

使用流：

#include "cuda_runtime.h"

#include <iostream>

#include <stdio.h>

#include <math.h>  

#define N (1024*1024)

#define FULL_DATA_SIZE N*20  

__global__ void kernel(int* a, int *b, int*c)

{

	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)

	{

		c[threadID] = (a[threadID] + b[threadID]) / 2;

	}

}

int main()

{

	//获取设备属性

	cudaDeviceProp prop;

	int deviceID;

	cudaGetDevice(&deviceID);

	cudaGetDeviceProperties(&prop, deviceID);

	//检查设备是否支持重叠功能

	if (!prop.deviceOverlap)

	{

		printf("No device will handle overlaps. so no speed up from stream.\n");

		return 0;

	}

	//启动计时器

	cudaEvent_t start, stop;

	float elapsedTime;

	cudaEventCreate(&start);

	cudaEventCreate(&stop);

	cudaEventRecord(start, 0);

	//创建一个CUDA流

	cudaStream_t stream;

	cudaStreamCreate(&stream);

	int *host_a, *host_b, *host_c;

	int *dev_a, *dev_b, *dev_c;

	//在GPU上分配内存

	cudaMalloc((void**)&dev_a, N * sizeof(int));

	cudaMalloc((void**)&dev_b, N * sizeof(int));

	cudaMalloc((void**)&dev_c, N * sizeof(int));

	//在CPU上分配页锁定内存

	cudaHostAlloc((void**)&host_a, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_b, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_c, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	//主机上的内存赋值

	for (int i = 0; i < FULL_DATA_SIZE; i++)

	{

		host_a[i] = i;

		host_b[i] = FULL_DATA_SIZE - i;

	}

	for (int i = 0; i < FULL_DATA_SIZE; i += N)

	{

		cudaMemcpyAsync(dev_a, host_a + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		cudaMemcpyAsync(dev_b, host_b + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		kernel << <N / 1024, 1024, 0, stream >> > (dev_a, dev_b, dev_c);

		cudaMemcpyAsync(host_c + i, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost, stream);

	}

	// wait until gpu execution finish

	cudaStreamSynchronize(stream);

	cudaEventRecord(stop, 0);

	cudaEventSynchronize(stop);

	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间： " << elapsedTime << std::endl;

	//输出前10个结果

	for (int i = 0; i < 10; i++)

	{

		std::cout << host_c[i] << std::endl;

	}

	getchar();

	// free stream and mem

	cudaFreeHost(host_a);

	cudaFreeHost(host_b);

	cudaFreeHost(host_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	cudaFree(dev_c);

	cudaStreamDestroy(stream);

	return 0;

}

首先声明一个Stream，可以把不同的操作放到Stream内，按照放入的先后顺序执行。

cudaMemcpyAsync操作只是一个请求，表示在流中执行一次内存复制操作，并不能确保cudaMemcpyAsync函数返回时已经启动了复制动作，更不能确定复制操作是否已经执行完成，可以确定的是放入流中的这个复制动作一定是在其后放入流中的其他动作之前完成的。使用流（同时要使用页锁定内存）和不使用流的结果一致，运算时间分别是30ms和50ms。

CUDA流（Stream）的更多相关文章

CUDA 7 Stream流简化并发性
CUDA 7 Stream流简化并发性异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU .为此,应用程序必须在多个处理器上并发执行函数. CUDA 应用程序通过在 streams ...
JAVA基础知识之IO——IO流(Stream)的概念
Java IO 流 Java将不同的设备或载体(键盘.文件.网络.管道等)的输入输出数据统称为"流"(Stream),即JAVA的IO都是基于流的. JAVA传统的所有流类型类都包 ...
[Linux] 流 ( Stream )、管道 ( Pipeline ) 、Filter - 笔记
流 ( Stream ) 1. 流,是指可使用的数据元素一个序列. 2. 流,可以想象为是传送带上等待加工处理的物品,也可以想象为工厂流水线上的物品. 3. 流,可以是无限的数据. 4. 有一种功能, ...
【stanford C++】字符串(String)与流(Stream)
字符串(String)与流(Stream) 一.C++中字符串(String) 字符串(String):就是(可能是空的)字符序列. C++中的字符串在概念上和Java中的字符串类似. C++字符串用 ...
nodeJS之流stream
前面的话当内存中无法一次装下需要处理的数据时,或者一边读取一边处理更加高效时,我们就需要用到数据流.NodeJS中通过各种Stream来提供对数据流的操作.本文将详细说明NodeJS中的流strea ...
c#中字节数组byte[]、图片image、流stream，字符串string、内存流MemoryStream、文件file，之间的转换
字节数组byte[]与图片image之间的转化字节数组转换成图片 public static Image byte2img(byte[] buffer) { MemoryStream ms = ne ...
Java笔记：Java 流(Stream)、文件(File)和IO
更新时间:2018-1-7 12:27:21 更多请查看在线文集:http://android.52fhy.com/java/index.html java.io 包几乎包含了所有操作输入.输出需要的 ...
Java - 17 Java 流(Stream)、文件(File)和IO
Java 流(Stream).文件(File)和IO Java.io包几乎包含了所有操作输入.输出需要的类.所有这些流类代表了输入源和输出目标. Java.io包中的流支持很多种格式,比如:基本类型. ...

随机推荐

（7）Launcher3客制化之，改动单屏幕后，Fix在Hotseat拖动应用删除报错
改动单屏幕后,在workspace里面拖动图标.到删除button上松开的时候,报错问题. 而且无法再次显示拖动的图标. 拖动松开手时候触发 public void onDropCompleted(f ...
IOS Audio session
iOS实现长时间后台的两种方法:Audio session和VOIP socket 十二月 04 我们知道 iOS 开启后台任务后可以获得最多 600 秒的执行时间,而一些需要在后台下载或者与服务器保 ...
ios 不支持屏幕旋转
- (NSUInteger)supportedInterfaceOrientations { return UIInterfaceOrientationMaskPortrait; }
Java反射学习总结四（动态代理使用实例和内部原理解析）
通过上一篇文章介绍的静态代理Java反射学习总结三(静态代理)中,大家可以发现在静态代理中每一个代理类只能为一个接口服务,这样一来必然会产生过多的代理,而且对于每个实例,如果需要添加不同代理就要去添加 ...
一次svn数据库的崩溃错误的解决
作者:朱金灿来源:. 然后再更新svn数据库,依然出现上面提到的错误.于是又想到新建一个svn数据库,然后将旧库备份出来再导入到新库中,运行命令:svnadmin dump E:\Repositor ...
特殊类型数据：IP地址字段（IPv4）
人们经常使用varchar(15)来存储ip地址,然而,它们实际上是32位无符号整数,不是字符串. MySQL提供INET_ATON()和INET_NTOA()函数将ip地址在整数和四段表示形式之间进 ...
iis windows phpstudy安装redis扩展
说明,我的服务器是2008 64位 php5.4.33 首先下载符合条件的redis扩展,是否符合条件可以参考https://pecl.php.net/package/redis,进入之后,点击&qu ...
Kinect 骨骼映射---Let me dance for U!
本文章由cartzhang编写,转载请注明出处. 所有权利保留. 文章链接: http://blog.csdn.net/cartzhang/article/details/45583443 作者:ca ...
Cash Loan----:利用脚本自动化部署系统，解放我们的双手
[前言] 现在我们的项目发布(从git上拉代码部署到Linux上)是通过脚本来完成,生产和测试环境都是运维在控制,开发联调环境由开发来负责,之前开发环境每次部署都是先在本地打好jar包然后传到服务器上 ...
DC综合：划分与编码风格
划分与编码风格合理的设计划分和好的HDL编码风格对成功的综合影响很大. 逻辑划分是成功综合(和布局布线,如果布图是层次化的)的关键. 综合划分 "分而治之" 把复杂的设计化简为更 ...

CUDA流（Stream）

CUDA流（Stream）的更多相关文章

随机推荐

热门专题