cuda流测试=basic_single

cuda流测试

 /*

 * Copyright 1993-2010 NVIDIA Corporation.  All rights reserved.

 *

 * NVIDIA Corporation and its licensors retain all intellectual property and

 * proprietary rights in and to this software and related documentation.

 * Any use, reproduction, disclosure, or distribution of this software

 * and related documentation without an express license agreement from

 * NVIDIA Corporation is strictly prohibited.

 *

 * Please refer to the applicable NVIDIA end user license agreement (EULA)

 * associated with this source code for terms and conditions that govern

 * your use of this NVIDIA software.

 *

 */

 #include "../common/book.h"

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #define N   (1024*1024)

 #define FULL_DATA_SIZE   (N*20)

 __global__ void kernel(int *a, int *b, int *c) {

     int idx = threadIdx.x + blockIdx.x * blockDim.x;

     if (idx < N) {

         //idx后两个数

         int idx1 = (idx + ) % ;

         int idx2 = (idx + ) % ;

         float   as = (a[idx] + a[idx1] + a[idx2]) / 3.0f;

         float   bs = (b[idx] + b[idx1] + b[idx2]) / 3.0f;

         c[idx] = (as + bs) / ;

     }

 }

 int main(void) {

     cudaDeviceProp  prop;

     int whichDevice;

     HANDLE_ERROR(cudaGetDevice(&whichDevice));

     HANDLE_ERROR(cudaGetDeviceProperties(&prop, whichDevice));

     if (!prop.deviceOverlap) {

         printf("Device will not handle overlaps, so no speed up from streams\n");

         return ;

     }

     cudaEvent_t     start, stop;

     float           elapsedTime;

     cudaStream_t    stream;

     int *host_a, *host_b, *host_c;

     int *dev_a, *dev_b, *dev_c;

     // start the timers

     HANDLE_ERROR(cudaEventCreate(&start));

     HANDLE_ERROR(cudaEventCreate(&stop));

     //初始化流

     HANDLE_ERROR(cudaStreamCreate(&stream));

     // allocate the memory on the GPU

     HANDLE_ERROR(cudaMalloc((void**)&dev_a,

         N * sizeof(int)));

     HANDLE_ERROR(cudaMalloc((void**)&dev_b,

         N * sizeof(int)));

     HANDLE_ERROR(cudaMalloc((void**)&dev_c,

         N * sizeof(int)));

     //分配由于GPU访问的主机无分页内存（锁定内存页）

     HANDLE_ERROR(cudaHostAlloc((void**)&host_a,

         FULL_DATA_SIZE * sizeof(int),

         cudaHostAllocDefault));

     HANDLE_ERROR(cudaHostAlloc((void**)&host_b,

         FULL_DATA_SIZE * sizeof(int),

         cudaHostAllocDefault));

     HANDLE_ERROR(cudaHostAlloc((void**)&host_c,

         FULL_DATA_SIZE * sizeof(int),

         cudaHostAllocDefault));

     for (int i = ; i<FULL_DATA_SIZE; i++) {

         host_a[i] = rand();

         host_b[i] = rand();

     }

     HANDLE_ERROR(cudaEventRecord(start, ));

     // now loop over full data, in bite-sized chunks

     for (int i = ; i<FULL_DATA_SIZE; i += N) {

         //异步复制主机上内存的值到设备上

         HANDLE_ERROR(cudaMemcpyAsync(dev_a, host_a + i,

             N * sizeof(int),

             cudaMemcpyHostToDevice,

             stream));

         HANDLE_ERROR(cudaMemcpyAsync(dev_b, host_b + i,

             N * sizeof(int),

             cudaMemcpyHostToDevice,

             stream));

         kernel << <N / , , , stream >> >(dev_a, dev_b, dev_c);

         //将计算的值复制会主机

         HANDLE_ERROR(cudaMemcpyAsync(host_c + i, dev_c,

             N * sizeof(int),

             cudaMemcpyDeviceToHost,

             stream));

     }

     //从锁定页将结果块复制到主机内存

     HANDLE_ERROR(cudaStreamSynchronize(stream));

     HANDLE_ERROR(cudaEventRecord(stop, ));

     HANDLE_ERROR(cudaEventSynchronize(stop));

     HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime,

         start, stop));

     printf("Time taken:  %3.1f ms\n", elapsedTime);

     // cleanup the streams and memory

     HANDLE_ERROR(cudaFreeHost(host_a));

     HANDLE_ERROR(cudaFreeHost(host_b));

     HANDLE_ERROR(cudaFreeHost(host_c));

     HANDLE_ERROR(cudaFree(dev_a));

     HANDLE_ERROR(cudaFree(dev_b));

     HANDLE_ERROR(cudaFree(dev_c));

     HANDLE_ERROR(cudaStreamDestroy(stream));

     return ;

 }

项目打包下载

cuda流测试=basic_single_stream的更多相关文章

CUDA流（Stream）
CUDA流表示一个GPU操作队列,该队列中的操作将以添加到流中的先后顺序而依次执行.可以将一个流看做是GPU上的一个任务,不同任务可以并行执行.使用CUDA流,首先要选择一个支持设备重叠(Device ...
推荐一款简单易用线上引流测试工具：GoReplay
一. 引流测试产生背景日常大部分的测试工作都是在测试环境下,通过模拟用户的行为来对系统进行验证,包括功能以及性能.在这个过程中,你可能会遇到以下问题: 用户访问行为比较复杂,模拟很难和用户行为一致, ...
两个VLC实现播放串流测试
实现原理: 一个VLC打开视频文件发布串流(格式HTTP.RTP.RTSP等),另一个VLC打开串流播放发布串流步骤: 1.菜单“媒体”->“流”,先添加视频文件.选择“串流”,如下图: 2. ...
两个VLC实现播放串流测试 (转)
实现原理: 一个VLC打开视频文件发布串流(格式HTTP.RTP.RTSP等),另一个VLC打开串流播放发布串流步骤: 1.菜单“媒体”->“流”,先添加视频文件.选择“串流”,如下图: 2. ...
rtmp拉流测试工具
http://www.cutv.com/demo/live_test.swf ================================================== ========== ...
Java文件与流测试
import java.io.File; import java.io.InputStreamReader; import java.math.BigDecimal; import java.io.B ...
CUDA 7流简化并发
CUDA 7流简化并发异构计算是指有效使用系统中的所有处理器,包括CPU和GPU.为此,应用程序必须在多个处理器上同时执行功能.CUDA应用程序通过在流(按顺序执行的命令序列)中,执行异步命令来管理 ...
CUDA中的流与事件
流:CUDA流很像CPU的线程,一个CUDA流中的操作按顺序进行,粗粒度管理多个处理单元的并发执行. 通俗的讲,流用于并行运算,比如处理同一副图,你用一个流处理左边半张图片,再用第二个流处理右边半张图 ...
CUDA：流
1. 页锁定主机内存 c库函数malloc()分配标准的,可分页(Pagable)的内存,cudaHostAlloc()分配页锁定的主机内存.页锁定内存也称为固定内存(Pinned Memory)或者 ...

随机推荐

从技术 Leader 的招聘需求看，如何转岗为当前紧缺的大数据相关人才？
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...
「模拟赛20180306」回忆树 memory LCA+KMP+AC自动机+树状数组
题目描述回忆树是一棵树,树边上有小写字母. 一次回忆是这样的:你想起过往,触及心底--唔,不对,我们要说题目. 这题中我们认为回忆是这样的:给定 \(2\) 个点 \(u,v\) (\(u\) 可能 ...
OJDBC版本区别：ojdbc14.jar，ojdbc5.jar和ojdbc6.jar的区别
classes12.jar - for Java 1.2 and 1.3ojdbc14.jar - for Java 1.4 and 1.5ojdbc5.jar - for Java 1.5ojdbc ...
入侵检测系统 - ossec
http://www.cnblogs.com/zlslch/p/8512757.html
Python之PIP安装
Python有两个著名的包管理工具easy_install.py和pip.Python2.7的安装包中自带了easy_install.py,而pip需要手动安装.而在Python3.5之后都是默认安装 ...
strcpy、strncpy、strlen、memcpy、memset、strcat、strncat、strcmp、strncmp，strchr
1.strcpy #include<stdio.h> #include<assert.h> char *mystrcpy(char *dest, const char *src ...
docker~aspnetcore2.0镜像安装软件的加速器
一般对于安装软件加速时,我们大多数会选择阿里云,而对于aspnetcore2.0这个进项来说,由于使用的是Debian操作系统,所有我们要找到它对应的mirror列表,下面是我整理的一个sources ...
Unity3D游戏高性能战争迷雾系统实现
一效果图先上效果图吧,这是为了吸引到你们的ヽ(｡◕‿◕｡)ﾉﾟ战争迷雾效果演示图战争迷雾调试界面演示图由于是gif录制,为了压缩图片,帧率有点低,实际运行时,参数调整好是不会像这样一卡一顿的 ...
Python 将IP转换为int
import socket import struct if __name__ == '__main__': ip = '127.0.0.1' int_ip = struct.unpack('!I', ...
如何求Ifeature 的面积
IArea pArea = pfteature_Source.Shape as IArea;// IArea来自geometry double dArea = Math.Round(pArea.Ar ...

cuda流测试=basic_single_stream

cuda流测试=basic_single_stream的更多相关文章

随机推荐

热门专题