CUDA流（Stream）

CUDA流表示一个GPU操作队列，该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务，不同任务可以并行执行。使用CUDA流，首先要选择一个支持设备重叠（Device Overlap）功能的设备，支持设备重叠功能的GPU能够在执行一个CUDA核函数的同时，还能在主机和设备之间执行复制数据操作。

支持重叠功能的设备的这一特性很重要，可以在一定程度上提升GPU程序的执行效率。一般情况下，CPU内存远大于GPU内存，对于数据量比较大的情况，不可能把CPU缓冲区中的数据一次性传输给GPU，需要分块传输，如果能够在分块传输的同时，GPU也在执行核函数运算，这样的异步操作，就用到设备的重叠功能，能够提高运算性能。

以下程序演示单个流的使用步骤，对比使用流操作的性能提升，不使用流的情况：

#include "cuda_runtime.h"

#include <iostream>

#include <stdio.h>

#include <math.h>  

#define N (1024*1024)

#define FULL_DATA_SIZE N*20  

__global__ void kernel(int* a, int *b, int*c)

{

	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)

	{

		c[threadID] = (a[threadID] + b[threadID]) / 2;

	}

}

int main()

{

	//启动计时器

	cudaEvent_t start, stop;

	float elapsedTime;

	cudaEventCreate(&start);

	cudaEventCreate(&stop);

	cudaEventRecord(start, 0);

	int *host_a, *host_b, *host_c;

	int *dev_a, *dev_b, *dev_c;

	//在GPU上分配内存

	cudaMalloc((void**)&dev_a, FULL_DATA_SIZE * sizeof(int));

	cudaMalloc((void**)&dev_b, FULL_DATA_SIZE * sizeof(int));

	cudaMalloc((void**)&dev_c, FULL_DATA_SIZE * sizeof(int));

	//在CPU上分配可分页内存

	host_a = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	host_b = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	host_c = (int*)malloc(FULL_DATA_SIZE * sizeof(int));

	//主机上的内存赋值

	for (int i = 0; i < FULL_DATA_SIZE; i++)

	{

		host_a[i] = i;

		host_b[i] = FULL_DATA_SIZE - i;

	}

	//从主机到设备复制数据

	cudaMemcpy(dev_a, host_a, FULL_DATA_SIZE * sizeof(int), cudaMemcpyHostToDevice);

	cudaMemcpy(dev_b, host_b, FULL_DATA_SIZE * sizeof(int), cudaMemcpyHostToDevice);

	kernel << <FULL_DATA_SIZE / 1024, 1024 >> > (dev_a, dev_b, dev_c);

	//数据拷贝回主机

	cudaMemcpy(host_c, dev_c, FULL_DATA_SIZE * sizeof(int), cudaMemcpyDeviceToHost);

	//计时结束

	cudaEventRecord(stop, 0);

	cudaEventSynchronize(stop);

	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间： " << elapsedTime << std::endl;

	//输出前10个结果

	for (int i = 0; i < 10; i++)

	{

		std::cout << host_c[i] << std::endl;

	}

	getchar();

	cudaFreeHost(host_a);

	cudaFreeHost(host_b);

	cudaFreeHost(host_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	cudaFree(dev_c);

	return 0;

}

使用流：

#include "cuda_runtime.h"

#include <iostream>

#include <stdio.h>

#include <math.h>  

#define N (1024*1024)

#define FULL_DATA_SIZE N*20  

__global__ void kernel(int* a, int *b, int*c)

{

	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)

	{

		c[threadID] = (a[threadID] + b[threadID]) / 2;

	}

}

int main()

{

	//获取设备属性

	cudaDeviceProp prop;

	int deviceID;

	cudaGetDevice(&deviceID);

	cudaGetDeviceProperties(&prop, deviceID);

	//检查设备是否支持重叠功能

	if (!prop.deviceOverlap)

	{

		printf("No device will handle overlaps. so no speed up from stream.\n");

		return 0;

	}

	//启动计时器

	cudaEvent_t start, stop;

	float elapsedTime;

	cudaEventCreate(&start);

	cudaEventCreate(&stop);

	cudaEventRecord(start, 0);

	//创建一个CUDA流

	cudaStream_t stream;

	cudaStreamCreate(&stream);

	int *host_a, *host_b, *host_c;

	int *dev_a, *dev_b, *dev_c;

	//在GPU上分配内存

	cudaMalloc((void**)&dev_a, N * sizeof(int));

	cudaMalloc((void**)&dev_b, N * sizeof(int));

	cudaMalloc((void**)&dev_c, N * sizeof(int));

	//在CPU上分配页锁定内存

	cudaHostAlloc((void**)&host_a, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_b, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	cudaHostAlloc((void**)&host_c, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	//主机上的内存赋值

	for (int i = 0; i < FULL_DATA_SIZE; i++)

	{

		host_a[i] = i;

		host_b[i] = FULL_DATA_SIZE - i;

	}

	for (int i = 0; i < FULL_DATA_SIZE; i += N)

	{

		cudaMemcpyAsync(dev_a, host_a + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		cudaMemcpyAsync(dev_b, host_b + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		kernel << <N / 1024, 1024, 0, stream >> > (dev_a, dev_b, dev_c);

		cudaMemcpyAsync(host_c + i, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost, stream);

	}

	// wait until gpu execution finish

	cudaStreamSynchronize(stream);

	cudaEventRecord(stop, 0);

	cudaEventSynchronize(stop);

	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间： " << elapsedTime << std::endl;

	//输出前10个结果

	for (int i = 0; i < 10; i++)

	{

		std::cout << host_c[i] << std::endl;

	}

	getchar();

	// free stream and mem

	cudaFreeHost(host_a);

	cudaFreeHost(host_b);

	cudaFreeHost(host_c);

	cudaFree(dev_a);

	cudaFree(dev_b);

	cudaFree(dev_c);

	cudaStreamDestroy(stream);

	return 0;

}

首先声明一个Stream，可以把不同的操作放到Stream内，按照放入的先后顺序执行。

cudaMemcpyAsync操作只是一个请求，表示在流中执行一次内存复制操作，并不能确保cudaMemcpyAsync函数返回时已经启动了复制动作，更不能确定复制操作是否已经执行完成，可以确定的是放入流中的这个复制动作一定是在其后放入流中的其他动作之前完成的。使用流（同时要使用页锁定内存）和不使用流的结果一致，运算时间分别是30ms和50ms。

CUDA流（Stream）的更多相关文章

CUDA 7 Stream流简化并发性
CUDA 7 Stream流简化并发性异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU .为此,应用程序必须在多个处理器上并发执行函数. CUDA 应用程序通过在 streams ...
JAVA基础知识之IO——IO流(Stream)的概念
Java IO 流 Java将不同的设备或载体(键盘.文件.网络.管道等)的输入输出数据统称为"流"(Stream),即JAVA的IO都是基于流的. JAVA传统的所有流类型类都包 ...
[Linux] 流 ( Stream )、管道 ( Pipeline ) 、Filter - 笔记
流 ( Stream ) 1. 流,是指可使用的数据元素一个序列. 2. 流,可以想象为是传送带上等待加工处理的物品,也可以想象为工厂流水线上的物品. 3. 流,可以是无限的数据. 4. 有一种功能, ...
【stanford C++】字符串(String)与流(Stream)
字符串(String)与流(Stream) 一.C++中字符串(String) 字符串(String):就是(可能是空的)字符序列. C++中的字符串在概念上和Java中的字符串类似. C++字符串用 ...
nodeJS之流stream
前面的话当内存中无法一次装下需要处理的数据时,或者一边读取一边处理更加高效时,我们就需要用到数据流.NodeJS中通过各种Stream来提供对数据流的操作.本文将详细说明NodeJS中的流strea ...
c#中字节数组byte[]、图片image、流stream，字符串string、内存流MemoryStream、文件file，之间的转换
字节数组byte[]与图片image之间的转化字节数组转换成图片 public static Image byte2img(byte[] buffer) { MemoryStream ms = ne ...
Java笔记：Java 流(Stream)、文件(File)和IO
更新时间:2018-1-7 12:27:21 更多请查看在线文集:http://android.52fhy.com/java/index.html java.io 包几乎包含了所有操作输入.输出需要的 ...
Java - 17 Java 流(Stream)、文件(File)和IO
Java 流(Stream).文件(File)和IO Java.io包几乎包含了所有操作输入.输出需要的类.所有这些流类代表了输入源和输出目标. Java.io包中的流支持很多种格式,比如:基本类型. ...

随机推荐

基于element ui的图片预览插件
写插件很简单,满足两个条件即可,一.基本的逻辑思路,二.熟悉插件语法要求.本次Vue插件也比较简单,点击“查看图片”用轮播的方式限制用户上传的图片,如图: 项目采用的是vue-element-admi ...
在sublime text 3中安装中文支持分类： C_OHTERS 2015-04-24 22:04 229人阅读评论(0) 收藏
1.安装package control 使用control+~打开终端,然后输入以下内容并确定: import urllib.request,os;pf='Package Control.subli ...
ANDROID内存优化(大汇总——全)
写在最前: 本文的思路主要借鉴了2014年AnDevCon开发者大会的一个演讲PPT,加上把网上搜集的各种内存零散知识点进行汇总.挑选.简化后整理而成. 所以我将本文定义为一个工具类的文章,如果你在A ...
关于fatfs生成的wav文件是空,大小是0的问题
绝大多数是因为打开错误调试的时候,编写程序的时候要记得res=f_open() 要有返回值res的设置
GCD 初步学习
GCD应该是比較牛逼的东西了吧,一时半会应该是操作不好. 在cocoa-china上面有两篇关于GCD的文章.GCD 深入理解(一) GCD 深入理解(二) CSDN荣芳志博客:点击打开链接我仅仅是 ...
HBase -ROOT-和.META.表结构(region定位原理) 分类： B7_HBASE 2015-03-13 20:52 90人阅读评论(0) 收藏
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer.什么叫相应的RegionServer?就是管理你要操 ...
QMap 的增删改查
map 是一种数据容器,它提供一种由key 到 value 的映射.map 的key 是唯一的, 也是有序的.map 通常由近似平衡的红黑树来实现.key 的有序性,使得插入,查找节点比较有效.map ...
mariadb远程不能访问，出现Can't connect to MySQL server on '' (10061)
一,现象: 1. 1 远程连接数据库mariadb时,报错二,定位: 2. 1 首先本地连接上数据库,然后操作权限表数据 ,然后远程再次连接依然连接不上: 2. 2 搜索mariadb的配置文 ...
WordPress通过插件发送邮件
原文发表自我的个人站点,欢迎大家訪问~转载请保留本段,或注明原文链接:http://www.hainter.com/wordpress-send-email-via-plugins WordPress ...
node+mongodb+WP构建的移动社交应用源码分享
源码地址: https://github.com/kangkaisen/dreaming dreaming 详情介绍:http://www.bcmeng.com/dreaming/

CUDA流（Stream）

CUDA流（Stream）的更多相关文章

随机推荐

热门专题