CUDA学习（六）之使用共享内存（shared memory）进行归约求和（M个包含N个线程的线程块）

在https://www.cnblogs.com/xiaoxiaoyibu/p/11402607.html中介绍了使用一个包含N个线程的线程块和共享内存进行数组归约求和，

基本思路：

　　定义M个包含N个线程的线程块时（NThreadX = ((NX + ThreadX - 1) / ThreadX)），全局线程索引需使用tid = blockIdx.x * blockDim.x + threadIdx.x，而在每个线程块中局部线程索引是i = threadIdx.x，

每个线程块只计算一部分求和，求和结果保存在该线程块中的共享内存数组0号元素中，线程结束后将该值赋给对应全局数组（blockIdx.x * blockDim.x）元素中，最后在CPU端使用循环将每个线程块所求和相加，即得到最后结果。

代码如下：

#pragma once

#include "cuda_runtime.h"

#include "device_launch_parameters.h"

#include "device_functions.h"

#include <iostream>

using namespace std;

const int NX = ;            //数组长度

const int ThreadX = ;        //线程块大小

//使用shared memory和多个线程块

__global__ void d_SharedMemoryTest(double *para)

{

    int i = threadIdx.x;                                    //该线程块中线程索引

    int tid = blockIdx.x * blockDim.x + threadIdx.x;        //M个包含N个线程的线程块中相对应全局内存数组的索引（全局线程）

    __shared__ double s_Para[ThreadX];                        //定义固定长度（线程块长度）的共享内存数组

    if (tid < NX)                                            //判断全局线程小于整个数组长度NX，防止数组越界

        s_Para[i] = para[tid];                                //将对应全局内存数组中一段元素的值赋给共享内存数组

    __syncthreads();                                        　//(红色下波浪线提示由于VS不识别，不影响运行)同步，等待所有线程把自己负责的元素载入到共享内存再执行下面代码

    for (int index = ; index < blockDim.x; index *= )        //归约求和

    {

        __syncthreads();

        if (i % ( * index) == )

        {

            s_Para[i] += s_Para[i + index];

        }

    }

    if (i == )                                                //求和完成，总和保存在共享内存数组的0号元素中

        para[blockIdx.x * blockDim.x + i] = s_Para[i];        //在每个线程块中，将共享内存数组的0号元素赋给全局内存数组的对应元素，即线程块索引*线程块维度+i（blockIdx.x * blockDim.x + i）

}

//使用shared memory和多个线程块

void s_ParallelTest()

{

    double *Para;

    cudaMallocManaged((void **)&Para, sizeof(double) * NX);        //统一内存寻址，CPU和GPU都可以使用

    double ParaSum = ;

    for (int i = ; i<NX; i++)

    {

        Para[i] = (i + ) * 0.01;                        //数组赋值

        ParaSum += Para[i];                                //CPU端数组累加

    }

    cout << " CPU result = " << ParaSum << endl;        //显示CPU端结果

    double d_ParaSum;

    int NThreadX = ((NX + ThreadX - ) / ThreadX);

    cout << " 线程块大小 ：" << ThreadX << "                线程块数量 ：" << NThreadX << endl;

    d_SharedMemoryTest << < NThreadX, ThreadX >> > (Para);                //调用核函数（M个包含N个线程的线程块）

    cudaDeviceSynchronize();                            //同步

    for (int i=; i<NThreadX; i++)

    {

        d_ParaSum += Para[i*ThreadX];                    //将每个线程块相加求的和（保存在对应全局内存数组中）相加求和

    }

    cout << " GPU result = " << d_ParaSum << endl;        //显示GPU端结果

}

int main() {

    s_ParallelTest();

    system("pause");

    return ;

}

结果如下（CPU和GPU结果一致）：

CUDA学习（六）之使用共享内存（shared memory）进行归约求和（M个包含N个线程的线程块）的更多相关文章

linux内核剖析（十一）进程间通信之-共享内存Shared Memory
共享内存共享内存是进程间通信中最简单的方式之一. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存允许两个或更多进程访问同一块内存,就如同 malloc() 函数向不同进程 ...
进程间通信之-共享内存Shared Memory--linux内核剖析（十一）
共享内存共享内存是进程间通信中最简单的方式之中的一个. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存同意两个或很多其他进程訪问同一块内存,就如同 malloc() 函数 ...
CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）
共享内存(shared memory)是位于SM上的on-chip(片上)一块内存,每个SM都有,就是内存比较小,早期的GPU只有16K(16384),现在生产的GPU一般都是48K(49152). ...
Linux进程间通信（六）：共享内存 shmget()、shmat()、shmdt()、shmctl()
下面将讲解进程间通信的另一种方式,使用共享内存. 一.什么是共享内存顾名思义,共享内存就是允许两个不相关的进程访问同一个逻辑内存.共享内存是在两个正在运行的进程之间共享和传递数据的一种非常有效的方式 ...
【CUDA 基础】5.2 共享内存的数据布局
title: [CUDA 基础]5.2 共享内存的数据布局 categories: - CUDA - Freshman tags: - 行主序 - 列主序 toc: true date: 2018-0 ...
【CUDA 基础】5.0 共享内存和常量内存
title: [CUDA 基础]5.0 共享内存和常量内存 categories: - CUDA - Freshman tags: - 共享内存 - 常量内存 toc: true date: 2018 ...
【转载】Linux进程间通信（六）：共享内存 shmget()、shmat()、shmdt()、shmctl()
来源:https://www.cnblogs.com/52php/p/5861372.html 下面将讲解进程间通信的另一种方式,使用共享内存. 一.什么是共享内存顾名思义,共享内存就是允许两个不相 ...
共享内存shared pool （3）：Library cache
Shared pool物理层面上由许多内存块(chunck)组成.从逻辑功能划分,Shared pool主要由三部分组成:Library cache,Dictionary cache和Control ...
python学习笔记——多进程中共享内存Value & Array
1 共享内存基本特点: (1)共享内存是一种最为高效的进程间通信方式,进程可以直接读写内存,而不需要任何数据的拷贝. (2)为了在多个进程间交换信息,内核专门留出了一块内存区,可以由需要访问的进程将 ...
CUDA学习（四）之使用全局内存进行归约求和（一个包含N个线程的线程块）
问题:使用CUDA进行数组元素归约求和,归约求和的思想是每次循环取半. 详细过程如下: 假设有一个包含8个元素的数组,索引下标从0到7,现通过3次循环相加得到这8个元素的和,使用一个间隔变量,该间隔变 ...

随机推荐

C# 为什么说事件是一种特殊的委托
很多人说C#的事件是一种特殊的委托,其实并不是,这是对事件的一种误解 C# 事件模型的五个组成部分 1.事件的拥有者 2.事件成员(事件的本身) 3.事件响应者 4.事件处理器:本质上是一种回调方法 ...
Flink State Backends (状态后端)
State Backends 的作用有状态的流计算是Flink的一大特点,状态本质上是数据,数据是需要维护的,例如数据库就是维护数据的一种解决方案.State Backends 的作用就是用来维护S ...
洛谷$P1155$ 双栈排序贪心+二分图匹配
正解:贪心+二分图匹配解题报告: 传送门$QwQ$ 跪了,,,我本来以为我$NOIp$做得差不多了,,,然后康了一眼发现没做多少啊其实$QAQ$ 然后来康题趴$QwQ$ 首先考虑如果只有一个栈的情况 ...
$loj\ 2031\ [SDOI2016]$数字配对网络流
正解:网络流解题报告: 我永远喜欢$loj$! 显然先预处理哪些$a$之间可以连边,然后考虑建两排点,连流量为$c_{i}\cdot c_{j}$,然后$ST$连$inf$,跑个费用流? 然后现在碰 ...
前端加密MD5
今天接触了MD5加密方式,记录一下使用方法,又去搜了搜关于MD5的详细内容 MD5在vue中使用方法 1.下载MD5模块 cnpm install md5 -S 2.引入模块 const md5 = ...
swoole通往大神之路——swoole任务中心说明及进程任务架构搭建
Swoole多任务处理中心如果你还不会用swoole就out了,swoole通往大神之路——swoole任务中心说明及进程任务架构搭建教学视频: www.bilibili.com/video/av ...
#ICCV2019论文阅读#Fully_convolutional_Features
一知识背景 3D scan&cloud points(点云)patch-based features,fully convolutional network, deep metric lea ...
WIN10高清壁纸
下面给大家分享我自己收集的WIN10的壁纸(大家可以存在在自己网盘里) 百度网盘下载提取码:dsf5
JVM系列五（javac 编译器）.
一.概述我们都知道 *.java 文件要首先被编译成 *.class 文件才能被 JVM 认识,这部分的工作主要由 Javac 来完成,类似于 Javac 这样的我们称之为前端编译器: 但是 *.c ...
Ubuntu1804下安装Gitab
部署gitlab 1.配置仓库源 # vim /etc/apt/sources.listdeb http://mirrors.aliyun.com/ubuntu/ bionic main restri ...

CUDA学习（六）之使用共享内存（shared memory）进行归约求和（M个包含N个线程的线程块）

CUDA学习（六）之使用共享内存（shared memory）进行归约求和（M个包含N个线程的线程块）的更多相关文章

随机推荐

热门专题