数组逆序=全局内存版 VS 共享内存版

全局内存版

 #include <stdio.h>

 #include <assert.h>

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 //检查CUDA运行时是否有错误

 void checkCUDAError(const char* msg);

 // Part3: 在全局内存执行内核

 /*

 blockDim块内的线程数

 blockIdx网格内的块索引

 gridDim网格内块个数

 threadIdx块内线程索引

 */

 __global__ void reverseArrayBlock(int *d_out, int *d_in)

 {

     int inOffset = blockDim.x * blockIdx.x;

     int outOffset = blockDim.x * (gridDim.x -  - blockIdx.x);

     int in = inOffset + threadIdx.x;

     int out = outOffset + (blockDim.x -  - threadIdx.x);

     d_out[out] = d_in[in];

 }

 /////////////////////////////////////////////////////////////////////

 //主函数

 /////////////////////////////////////////////////////////////////////

 int main(int argc, char** argv)

 {

     //指向主机的内存空间和大小

     int *h_a;

     int dimA =  * ; // 256K elements (1MB total)

     //指向设备的指针和大小

     int *d_b, *d_a;

     //定义网格和块大小，每个块的线程数量

     int numThreadsPerBlock = ;

     /*

     根据数组大小和预设的块大小来计算需要的块数

     */

     int numBlocks = dimA / numThreadsPerBlock;

     //申请主机及设备上的存储空间

     size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);

     //主机上的大小

     h_a = (int *)malloc(memSize);

     //设备上的大小

     cudaMalloc((void **)&d_a, memSize);

     cudaMalloc((void **)&d_b, memSize);

     //在主机上初始化输入数组

     for (int i = ; i < dimA; ++i)

     {

         h_a[i] = i;

     }

     //将主机数组拷贝到设备上，h_a-->d_a

     cudaMemcpy(d_a, h_a, memSize, cudaMemcpyHostToDevice);

     //启动内核

     dim3 dimGrid(numBlocks);

     dim3 dimBlock(numThreadsPerBlock);

     reverseArrayBlock <<< dimGrid,    dimBlock >>>(d_b, d_a);

     //阻塞，一直到设备完成计算

     cudaThreadSynchronize();

     //检查是否设备产生了错误

     //检查任何CUDA错误

     checkCUDAError("kernel invocation");

     //将结果从设备拷贝到主机，d_b-->h_a

     cudaMemcpy(h_a, d_b, memSize, cudaMemcpyDeviceToHost);

     //检查任何CUDA错误

     checkCUDAError("memcpy");

     //核对返回到主机上的结果是否正确

     for (int i = ; i < dimA; i++)

     {

         assert(h_a[i] == dimA -  - i);

     }

     //释放设备内存

     cudaFree(d_a);

     cudaFree(d_b);

     //释放主机内存

     free(h_a);

     printf("Correct!\n");

     return ;

 }

 void checkCUDAError(const char *msg)

 {

     cudaError_t err = cudaGetLastError();

     if (cudaSuccess != err)

     {

         fprintf(stderr, "Cuda error: %s: %s.\n", msg,cudaGetErrorString(err));

         exit(EXIT_FAILURE);

     }

 }

共享内存版

 #include <stdio.h>

 #include <assert.h>

 #include "cuda.h"

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include <device_functions.h>

 //检查CUDA运行时是否有错误

 void checkCUDAError(const char* msg);

 // Part 2 of 2: 使用共享内存执行内核

 __global__ void reverseArrayBlock(int *d_out, int *d_in)

 {

     extern __shared__ int s_data[];

     int inOffset = blockDim.x * blockIdx.x;

     int in = inOffset + threadIdx.x;

     // Load one element per thread from device memory and store it

     // *in reversed order* into temporary shared memory

     /*

     每个线程从设备内存加载一个数据元素并按逆序存储在共享存储器上

     */

     s_data[blockDim.x -  - threadIdx.x] = d_in[in];

     /*

     阻塞，一直到所有线程将他们的数据都写入到共享内存中

     */

     __syncthreads();

     // write the data from shared memory in forward order,

     // but to the reversed block offset as before

     /*

     将共享内存中的数据s_data写入到d_out中，按照前序

     */

     int outOffset = blockDim.x * (gridDim.x -  - blockIdx.x);

     int out = outOffset + threadIdx.x;

     d_out[out] = s_data[threadIdx.x];

 }

 ////////////////////////////////////////////////////////////////////

 //主函数

 ////////////////////////////////////////////////////////////////////

 int main(int argc, char** argv)

 {

     //指向主机的内存空间和大小

     int *h_a;

     int dimA =  * ; // 256K elements (1MB total)

     // pointer for device memory

     int *d_b, *d_a;

     //指向设备的指针和大小

     int numThreadsPerBlock = ;

     /*

     根据数组大小和预设的块大小来计算需要的块数

     */

     int numBlocks = dimA / numThreadsPerBlock;

     /*

     Part 1 of 2:

     计算共享内存所需的内存空间大小，这在下面的内核调用时被使用

     */

     int sharedMemSize = numThreadsPerBlock * sizeof(int);

     //申请主机及设备上的存储空间

     size_t memSize = numBlocks * numThreadsPerBlock * sizeof(int);

     //主机上的大小

     h_a = (int *)malloc(memSize);

     //设备上的大小

     cudaMalloc((void **)&d_a, memSize);

     cudaMalloc((void **)&d_b, memSize);

     //在主机上初始化输入数组

     for (int i = ; i < dimA; ++i)

     {

         h_a[i] = i;

     }

     //将主机数组拷贝到设备上，h_a-->d_a

     cudaMemcpy(d_a, h_a, memSize, cudaMemcpyHostToDevice);

     //启动内核

     dim3 dimGrid(numBlocks);

     dim3 dimBlock(numThreadsPerBlock);

     reverseArrayBlock << < dimGrid, dimBlock, sharedMemSize >> >(d_b, d_a);

     //阻塞，一直到设备完成计算

     cudaThreadSynchronize();

     //检查是否设备产生了错误

     //检查任何CUDA错误

     checkCUDAError("kernel invocation");

     //将结果从设备拷贝到主机，d_b-->h_a

     cudaMemcpy(h_a, d_b, memSize, cudaMemcpyDeviceToHost);

     //检查任何CUDA错误

     checkCUDAError("memcpy");

     //核对返回到主机上的结果是否正确

     for (int i = ; i < dimA; i++)

     {

         assert(h_a[i] == dimA -  - i);

     }

     //释放设备内存

     cudaFree(d_a);

     cudaFree(d_b);

     //释放主机内存

     free(h_a);

     printf("Correct!\n");

     return ;

 }

 void checkCUDAError(const char *msg)

 {

     cudaError_t err = cudaGetLastError();

     if (cudaSuccess != err)

     {

         fprintf(stderr, "Cuda error: %s: %s.\n", msg, cudaGetErrorString(err));

         exit(EXIT_FAILURE);

     }

 }

两个全部是数组逆序的实验，可以仔细观察其中更多而不同。

项目下载链接

数组逆序=全局内存版 VS 共享内存版的更多相关文章

Openjudge计算概论——数组逆序重放【递归练习】
/*===================================== 数组逆序重放总时间限制:1000ms 内存限制:65536kB 描述将一个数组中的值按逆序重新存放. 例如,原来的顺 ...
OpenJudge计算概论-数组逆序重放
/*=============================================================== 数组逆序重放总时间限制: 1000ms 内存限制: 65536kB ...
计算概论（A）/基础编程练习2(8题)/6:数组逆序重放
#include<stdio.h> int main() { // 输入n个整数 ; scanf("%d", &n); // 循环读入元素 while(scan ...
Java实现蓝桥杯VIP算法训练数组逆序排列
试题算法训练数组逆序排列资源限制时间限制:1.0s 内存限制:256.0MB 问题描述编写一个程序,读入一组整数(不超过20个),并把它们保存在一个整型数组中.当用户输入0时,表示输入结束. ...
JS创建一个数组1.求和 2.求平均值 3.最大值 4.最小值 5.数组逆序 6.数组去重 0.退出
rs = require("readline-sync"); let arr = []; console.log("请输入数组的长度:"); let arr_l ...
Java数组逆序排列
//逆序排列原理 /* A: 数组逆序原理* a: 题目分析* 通过观察发现,本题目要实现原数组元素倒序存放操作.即原数组存储元素为{12,69,852,25,89,588},逆序后为原数组存储元素变 ...
Java数组逆序存储
package review01; import java.util.Arrays; public class review01 { public static void main(String[] ...
Java50道经典习题-程序31 数组逆序
题目:将一个数组逆序输出.分析:用第一个与最后一个交换. public class Prog31 { public static void main(String[] args) { //遍历原始数组 ...
JAVA 基础编程练习题31 【程序 31 数组逆序】
31 [程序 31 数组逆序] 题目:将一个数组逆序输出. 程序分析:用第一个与最后一个交换. package cskaoyan; public class cskaoyan31 { @org.jun ...

随机推荐

HDU1729 Stone Game
题目:http://acm.hdu.edu.cn/showproblem.php?pid=1729 思路:理解错题目了,以为SG模板直接套就行了.后来队友说了那个ci是不断变化的.那么每次可以放的石头 ...
Git练习3 远程库分支 idea中状态条显示当前分支
11gR2 ASM RAC + ASM RAC dataguard配置
1.环境说明 --primary端配置 Primary RAC Node1 Node2 Public IP 192.168.56.120 192.168.56.122 Private IP 10.0. ...
Java 中常用的数据源
数据源:存储了所有建立数据库连接的信息.就象通过指定文件名你可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接. 1.JNDI方式创建DataSource 1.1 配置 ...
Just a Hook（线段树区间更新）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1698 In the game of DotA, Pudge’s meat hook is actual ...
Have启动报错：java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
错误日志如下: [hadoop@master hive1.0.0]$ bin/hive Logging initialized using configuration in file:/opt/mod ...
Hibernate的工作流程以及三种状态（面试题）
Hibernate的工作流程以及三种状态部分转载自:http://www.cnblogs.com/fifiyong/p/6390699.html Hibernate的工作流程: 1. 读取并解析配置 ...
Eclipse下git如何创建分支
1.项目–Team–Switch To –New Branch 2.Branch name 填写自己的版本号,然后Finish即可 3.将分支内容Push到远程服务器上
一个关于document.write()的问题
Index.html中: <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> ...
零基础逆向工程24_C++_01_类_this指针_继承本质_多层继承
1 类内的成员函数和普通函数的对比 1.1 主要是从参数传递.压栈顺序.堆栈平衡来总结. 1.参数传递:成员函数多传一个this指针 2.压栈顺序:成员函数会将this指针压栈,在函数调用取出 3.堆 ...

数组逆序=全局内存版 VS 共享内存版

数组逆序=全局内存版 VS 共享内存版的更多相关文章

随机推荐

热门专题