数组逆序=全局内存版 VS 共享内存版

全局内存版

 #include <stdio.h>

 #include <assert.h>

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 //检查CUDA运行时是否有错误

 void checkCUDAError(const char* msg);

 // Part3: 在全局内存执行内核

 /*

 blockDim块内的线程数

 blockIdx网格内的块索引

 gridDim网格内块个数

 threadIdx块内线程索引

 */

 __global__ void reverseArrayBlock(int *d_out, int *d_in)

 {

     int inOffset = blockDim.x * blockIdx.x;

     int outOffset = blockDim.x * (gridDim.x -  - blockIdx.x);

     int in = inOffset + threadIdx.x;

     int out = outOffset + (blockDim.x -  - threadIdx.x);

     d_out[out] = d_in[in];

 }

 /////////////////////////////////////////////////////////////////////

 //主函数

 /////////////////////////////////////////////////////////////////////

 int main(int argc, char** argv)

 {

     //指向主机的内存空间和大小

     int *h_a;

     int dimA =  * ; // 256K elements (1MB total)

     //指向设备的指针和大小

     int *d_b, *d_a;

     //定义网格和块大小，每个块的线程数量

     int numThreadsPerBlock = ;

     /*

     根据数组大小和预设的块大小来计算需要的块数

     */

     int numBlocks = dimA / numThreadsPerBlock;

     //申请主机及设备上的存储空间

     size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);

     //主机上的大小

     h_a = (int *)malloc(memSize);

     //设备上的大小

     cudaMalloc((void **)&d_a, memSize);

     cudaMalloc((void **)&d_b, memSize);

     //在主机上初始化输入数组

     for (int i = ; i < dimA; ++i)

     {

         h_a[i] = i;

     }

     //将主机数组拷贝到设备上，h_a-->d_a

     cudaMemcpy(d_a, h_a, memSize, cudaMemcpyHostToDevice);

     //启动内核

     dim3 dimGrid(numBlocks);

     dim3 dimBlock(numThreadsPerBlock);

     reverseArrayBlock <<< dimGrid,    dimBlock >>>(d_b, d_a);

     //阻塞，一直到设备完成计算

     cudaThreadSynchronize();

     //检查是否设备产生了错误

     //检查任何CUDA错误

     checkCUDAError("kernel invocation");

     //将结果从设备拷贝到主机，d_b-->h_a

     cudaMemcpy(h_a, d_b, memSize, cudaMemcpyDeviceToHost);

     //检查任何CUDA错误

     checkCUDAError("memcpy");

     //核对返回到主机上的结果是否正确

     for (int i = ; i < dimA; i++)

     {

         assert(h_a[i] == dimA -  - i);

     }

     //释放设备内存

     cudaFree(d_a);

     cudaFree(d_b);

     //释放主机内存

     free(h_a);

     printf("Correct!\n");

     return ;

 }

 void checkCUDAError(const char *msg)

 {

     cudaError_t err = cudaGetLastError();

     if (cudaSuccess != err)

     {

         fprintf(stderr, "Cuda error: %s: %s.\n", msg,cudaGetErrorString(err));

         exit(EXIT_FAILURE);

     }

 }

共享内存版

 #include <stdio.h>

 #include <assert.h>

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include <device_functions.h>

 //检查CUDA运行时是否有错误

 void checkCUDAError(const char* msg);

 // Part 2 of 2: 使用共享内存执行内核

 __global__ void reverseArrayBlock(int *d_out, int *d_in)

 {

     extern __shared__ int s_data[];

     int inOffset = blockDim.x * blockIdx.x;

     int in = inOffset + threadIdx.x;

     // Load one element per thread from device memory and store it

     // *in reversed order* into temporary shared memory

     /*

     每个线程从设备内存加载一个数据元素并按逆序存储在共享存储器上

     */

     s_data[blockDim.x -  - threadIdx.x] = d_in[in];

     /*

     阻塞，一直到所有线程将他们的数据都写入到共享内存中

     */

     __syncthreads();

     // write the data from shared memory in forward order,

     // but to the reversed block offset as before

     /*

     将共享内存中的数据s_data写入到d_out中，按照前序

     */

     int outOffset = blockDim.x * (gridDim.x -  - blockIdx.x);

     int out = outOffset + threadIdx.x;

     d_out[out] = s_data[threadIdx.x];

 }

 ////////////////////////////////////////////////////////////////////

 //主函数

 ////////////////////////////////////////////////////////////////////

 int main(int argc, char** argv)

 {

     //指向主机的内存空间和大小

     int *h_a;

     int dimA =  * ; // 256K elements (1MB total)

     // pointer for device memory

     int *d_b, *d_a;

     //指向设备的指针和大小

     int numThreadsPerBlock = ;

     /*

     根据数组大小和预设的块大小来计算需要的块数

     */

     int numBlocks = dimA / numThreadsPerBlock;

     /*

     Part 1 of 2:

     计算共享内存所需的内存空间大小，这在下面的内核调用时被使用

     */

     int sharedMemSize = numThreadsPerBlock * sizeof(int);

     //申请主机及设备上的存储空间

     size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);

     //主机上的大小

     h_a = (int *)malloc(memSize);

     //设备上的大小

     cudaMalloc((void **)&d_a, memSize);

     cudaMalloc((void **)&d_b, memSize);

     //在主机上初始化输入数组

     for (int i = ; i < dimA; ++i)

     {

         h_a[i] = i;

     }

     //将主机数组拷贝到设备上，h_a-->d_a

     cudaMemcpy(d_a, h_a, memSize, cudaMemcpyHostToDevice);

     //启动内核

     dim3 dimGrid(numBlocks);

     dim3 dimBlock(numThreadsPerBlock);

     reverseArrayBlock << < dimGrid, dimBlock, sharedMemSize >> >(d_b, d_a);

     //阻塞，一直到设备完成计算

     cudaThreadSynchronize();

     //检查是否设备产生了错误

     //检查任何CUDA错误

     checkCUDAError("kernel invocation");

     //将结果从设备拷贝到主机，d_b-->h_a

     cudaMemcpy(h_a, d_b, memSize, cudaMemcpyDeviceToHost);

     //检查任何CUDA错误

     checkCUDAError("memcpy");

     //核对返回到主机上的结果是否正确

     for (int i = ; i < dimA; i++)

     {

         assert(h_a[i] == dimA -  - i);

     }

     //释放设备内存

     cudaFree(d_a);

     cudaFree(d_b);

     //释放主机内存

     free(h_a);

     printf("Correct!\n");

     return ;

 }

 void checkCUDAError(const char *msg)

 {

     cudaError_t err = cudaGetLastError();

     if (cudaSuccess != err)

     {

         fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString(err));

         exit(EXIT_FAILURE);

     }

 }

两个全部是数组逆序的实验，可以仔细观察其中更多而不同。

项目下载链接

数组逆序=全局内存版 VS 共享内存版的更多相关文章

Openjudge计算概论——数组逆序重放【递归练习】
/*===================================== 数组逆序重放总时间限制:1000ms 内存限制:65536kB 描述将一个数组中的值按逆序重新存放. 例如,原来的顺 ...
OpenJudge计算概论-数组逆序重放
/*=============================================================== 数组逆序重放总时间限制: 1000ms 内存限制: 65536kB ...
计算概论（A）/基础编程练习2(8题)/6:数组逆序重放
#include<stdio.h> int main() { // 输入n个整数 ; scanf("%d", &n); // 循环读入元素 while(scan ...
Java实现蓝桥杯VIP算法训练数组逆序排列
试题算法训练数组逆序排列资源限制时间限制:1.0s 内存限制:256.0MB 问题描述编写一个程序,读入一组整数(不超过20个),并把它们保存在一个整型数组中.当用户输入0时,表示输入结束. ...
JS创建一个数组1.求和 2.求平均值 3.最大值 4.最小值 5.数组逆序 6.数组去重 0.退出
rs = require("readline-sync"); let arr = []; console.log("请输入数组的长度:"); let arr_l ...
Java数组逆序排列
//逆序排列原理 /* A: 数组逆序原理* a: 题目分析* 通过观察发现,本题目要实现原数组元素倒序存放操作.即原数组存储元素为{12,69,852,25,89,588},逆序后为原数组存储元素变 ...
Java数组逆序存储
package review01; import java.util.Arrays; public class review01 { public static void main(String[] ...
Java50道经典习题-程序31 数组逆序
题目:将一个数组逆序输出.分析:用第一个与最后一个交换. public class Prog31 { public static void main(String[] args) { //遍历原始数组 ...
JAVA 基础编程练习题31 【程序 31 数组逆序】
31 [程序 31 数组逆序] 题目:将一个数组逆序输出. 程序分析:用第一个与最后一个交换. package cskaoyan; public class cskaoyan31 { @org.jun ...

随机推荐

洛谷P4114 Qtree1
题目描述给定一棵\(n\)个节点的树,有两个操作: \(CHANGE\) \(i\) \(t_i\) 把第\(i\)条边的边权变成\(t_i\) \(QUERY\) \(a\) \(b\) 输出从\ ...
POJ1021 2D-Nim
题目来源:http://poj.org/problem?id=1021 题目大意: 有一种在棋盘上玩的游戏,每一步,一个玩家可以从棋盘上拿走连续行或列的棋子.谁拿到最后一颗棋子就胜利.如下图所示的棋盘 ...
未找到与约束 Micorosoft.CodeAnalysis.Editor.TypeScript.ToolsOptions.IUserSettingsProvider
问题: 未找到与约束 ContractName Micorosoft.CodeAnalysis.Editor.TypeScript.ToolsOptions.IUserSettingsProvide ...
Linux Shell命令系列(2)
6. history命令 “history”命令就是历史记录.它显示了在终端中所执行过的所有命令的历史. 7. sudo命令 “sudo”(super user do)命令允许授权用户执行超级用户或者 ...
Java操作Excel之POI简单例子
/** * 利用POI操作Excel表单 * * 需要jar包: * HSSF针对03及以前版本,即.xls后缀 * |---poi-3.16.jar * XSSF针对07及以后版本,即xlsx后缀 ...
JAVA基础系列（一）概述与相关概念
万事开头难,来这个平台上已经有一段时间了,看到了很多高质量的文章,也很喜欢这种简约的风格.一直也想把自己的零散的知识体系组织起来,但苦于自己拙劣的文笔和不成流派的风格让大家笑话,直到现在才开始.可是从 ...
MySQL分库分表的技巧
分表是分散数据库压力的好方法. 分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库. 当然,首先要知道什么情况下,才需要分表.个人觉得单表记录条数达到百万到千万 ...
前端WEB编辑器-------webstrom
欲先善其事,必先利其器,如题.看到网上一篇介绍webstrom的文章,觉得功能确实强大,也知道为什么阿里巴巴的前端传到github上的文件为啥都有一个 .idea 文件,(传说淘宝内部推荐写js用we ...
idea 清屏(控制台)快捷键
eclipse清屏快捷键为鼠标右键+R 而在idea中默认并没有清屏console的快捷键所以需要我们自行设置: 1,ctrl+alt+s打开settings 2,找到keymap 3,搜索 cle ...
vue-cli之脚手架
一.创建VUE项目 npm install vue-cli -g vue init webpack myprject cd myproject npm run dev 补充: 组件:它是可扩展的htm ...

数组逆序=全局内存版 VS 共享内存版

数组逆序=全局内存版 VS 共享内存版的更多相关文章

随机推荐

热门专题