今天买了本新书《高性能CUDA应用设计与开发方法与最佳实践》,今天读了第一章有点出获,分享给大家。

程序功能:给向量填充数据并计算各元素之和

1. CPU串行运行的代码:

//seqSerial.cpp:串行执行数组的填充及求和

#include<iostream>

#include<vector>

using namespace std;

int main()

{

 const int N=50000;
 //任务1:创建数组

 vector<int> a(N);
 //任务2:填充数组

 for(int i=0;i<N;i++)a[i]=i;
 //任务3:计算数组各元素之和

 int sumA=0;

 for(int i=0;i<N;i++)sumA+=a[i];

 //任务4:计算0-N-1之和

 int sumCheck=0;

 for(int i=0;i<N;i++)sumCheck+=i;

 //任务5:检查结果是否正确

 if(sumA==sumCheck) cout<<"Test Succeeded!"<<endl;

 else {cerr<<"TestFailed!"<<endl;return(1);}

 return (0);

}

2.Cuda Thrust C++ API 程序

#include<iostream>

using namespace std;

#include<thrust\/reduce.h>

#include<thrust/sequence.h>

#include<thrust/host_vector.h>

#include<thrust/device_vector.h>

int main()

{

 const int N=50000;
 //任务1:创建数组

 thrust::device_vector<int>a(N);
 //任务2:填充数组,并行运算

 thrust::sequence(a.begin(),a.end(),0);

 //任务3:计算数组元素之和,并行计算
 int sumA=thrust::reduce(a.begin(),a.end(),0);

 //

 int sumCheck=0;

 for(int i=0;i<N;i++)

  sumCheck+=i;

 //

 if(sumA==sumCheck)cout<<"Test Succeeded!"<<endl;

 else

 {

  cerr<<"Test Failed!"<<endl;

  return(1);

 }

 getchar();

 return (0);

}

3.仅对数据填充改为Runtime API 程序

//使用cuda Runtime API完成向数组中填充连续整数
#include<iostream>

using namespace std;

#include<thrust\/reduce.h>

#include<thrust/sequence.h>

#include<thrust/host_vector.h>

#include<thrust/device_vector.h>

__global__ void fillKernel(int *a,int n)

{

 int tid=blockIdx.x*blockDim.x+threadIdx.x;

 if(tid<n) a[tid]=tid;

}

void fill(int *d_a,int n)

{

 int nThreadsPerBlock=512;

 //int nBlocks=n/nThreadsPerBlock+(n%nThreadsPerBlock)?1:0);

 int nBlocks=(n+nThreadsPerBlock)/nThreadsPerBlock;

 fillKernel<<<nBlocks,nThreadsPerBlock>>>(d_a,n);

}

int main()

{

 const int N=50000;

 //任务1:创建数组
 thrust::device_vector<int>a(N);

 //任务2:填充数组,使用Runtime API 填充数组
 fill(thrust::raw_pointer_cast(&a[0]),N);

 //任务3:计算数组元素之和,并行计算
 int sumA=thrust::reduce(a.begin(),a.end(),0);

 //任务4:计算0-N-1之和
 int sumCheck=0;

 for(int i=0;i<N;i++)

  sumCheck+=i;

 //任务5:检查结果的正确性
 if(sumA==sumCheck)cout<<"Test Succeeded!"<<endl;

 else

 {

  cerr<<"Test Failed!"<<endl;

  return(1);

 }

 getchar();

 return (0);

}

【CUDA开发】Cuda C++ Thrust API与 Cuda Runtime API程序比较的更多相关文章

  1. 【CUDA开发】CUDA面内存拷贝用法总结

    [CUDA开发]CUDA面内存拷贝用法总结 标签(空格分隔): [CUDA开发] 主要是在调试CUDA硬解码并用D3D9或者D3D11显示的时候遇到了一些代码,如下所示: CUdeviceptr g_ ...

  2. 【并行计算-CUDA开发】【视频开发】ffmpeg Nvidia硬件加速总结

    2017年5月25日 0. 概述 FFmpeg可通过Nvidia的GPU进行加速,其中高层接口是通过Video Codec SDK来实现GPU资源的调用.Video Codec SDK包含完整的的高性 ...

  3. 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三

    JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...

  4. 【CUDA开发】CUDA编程接口(一)------一十八般武器

    子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...

  5. 【并行计算与CUDA开发】英伟达硬件加速编解码

    硬件加速 并行计算 OpenCL OpenCL API VS SDK 英伟达硬件编解码方案 基于 OpenCL 的 API 自己写一个编解码器 使用 SDK 中的编解码接口 使用编码器对于 OpenC ...

  6. 【CUDA开发】CUDA从入门到精通

    CUDA从入门到精通(零):写在前面 在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追 ...

  7. 关于CUDA两种API:Runtime API 和 Driver API

                 CUDA 眼下有两种不同的 API:Runtime API 和 Driver API,两种 API 各有其适用的范围. 高级API(cuda_runtime.h)是一种C++ ...

  8. Windows平台CUDA开发之前的准备工作

    CUDA是NVIDIA的GPU开发工具,眼下在大规模并行计算领域有着广泛应用. windows平台上面的CUDA开发之前.最好去NVIDIA官网查看说明,然后下载对应的driver. ToolKits ...

  9. 【神经网络与深度学习】【CUDA开发】caffe-windows win32下的编译尝试

    [神经网络与深度学习][CUDA开发]caffe-windows win32下的编译尝试 标签:[神经网络与深度学习] [CUDA开发] 主要是在开发Qt的应用程序时,需要的是有一个使用的库文件也只是 ...

随机推荐

  1. shell通配符

    wildcard 通配服   匹配.c文件 *.sh----常看当前目录下sh文件 *.c----常看当前目录下c文件 []---表示中括号 e.g [0,1,2,3,4]----能匹配0,1,2,3 ...

  2. HDU 6044 - Limited Permutation | 2017 Multi-University Training Contest 1

    研究一下建树 : /* HDU 6044 - Limited Permutation [ 读入优化,笛卡尔树 ] | 2017 Multi-University Training Contest 1 ...

  3. HDU 6034 - Balala Power! | 2017 Multi-University Training Contest 1

    /* HDU 6034 - Balala Power! [ 大数进位,贪心 ] 题意: 给一组字符串(小写英文字母),将上面的字符串考虑成26进制数,每个字母分配一个权值,问这组数字加起来的和最大是多 ...

  4. 前端Web浏览器基于Flash如何实时播放监控视频画面(三)之使用ffmpeg‘推流’

    本片文章只是起到抛砖引玉的作用,能从头到尾走通就行,并不做深入研究.为了让文章通俗易懂,尽量使用白话描述. 0x001: 下载ffmpeg 开源免费的推流软件有很多,这里以 ffmpeg 为例.ffm ...

  5. 灰度图像--图像分割 Sobel算子

    学习DIP第44天 转载请标明本文出处:http://blog.csdn.net/tonyshengtan,欢迎大家转载,发现博客被某些论坛转载后,图像无法正常显示,无法正常表达本人观点,对此表示很不 ...

  6. ValseWebninar 报告汇总

    ValseWebninar为计算机视觉.图像处理.模式识别与机器学习等研究领域内的华人青年学者提供深入学术交流的舞台. 20191218:基于视觉和常识的深度推理  主持人:    主讲人: 2019 ...

  7. AcWing:173. 矩阵距离(bfs)

    给定一个N行M列的01矩阵A,A[i][j] 与 A[k][l] 之间的曼哈顿距离定义为: dist(A[i][j],A[k][l])=|i−k|+|j−l|dist(A[i][j],A[k][l]) ...

  8. Android_(控件)使用自定义控件在屏幕中绘制一条虚线

    在Android屏幕中绘制虚线,最通用的是自定义控件DashedLine,再将自定义控件放入xml布局中 运行截图: 程序结构 package com.example.asus.gary_042; i ...

  9. 基于libcurl的restfull接口 post posts get gets

    头文件 #pragma once #ifndef __HTTP_CURL_H__ #define __HTTP_CURL_H__ #include <string> #include &q ...

  10. TCP主动打开 之 第一次握手-发送SYN

    tcp客户端与服务器端建立连接需要经过三次握手过程,本文主要分析客户端主动打开中的第一次握手部分,即客户端发送syn段到服务器端: tcp_v4_connect为发起连接主流程,首先对必要参数进行检查 ...