CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）

共享内存（shared memory）是位于SM上的on-chip（片上）一块内存，每个SM都有，就是内存比较小，早期的GPU只有16K（16384），现在生产的GPU一般都是48K（49152）。

共享内存由于是片上内存，因而带宽高，延迟小（较全局内存而言），合理使用共享内存对程序效率具有很大提升。

下面是使用共享内存对一个数组进行求和，使用全局内存进行归约求和可以浏览https://www.cnblogs.com/xiaoxiaoyibu/p/11397205.html

#pragma once

#include "cuda_runtime.h"

#include "device_launch_parameters.h"

#include "device_functions.h"

#include <iostream>

using namespace std;

const int N = ;        //数组长度

__global__ void d_ParallelTest(double *Para)

{

    int tid = threadIdx.x;

    //----使用shared memory--------------------------------------------------------------

    __shared__ double s_Para[N];    　　　　//定义长度为N的共享内存数组

    if (tid < N)                    　　　　//循环整个数组，每个线程负责将一个元素从全局内存载入共享内存

        s_Para[tid] = Para[tid];

    __syncthreads();                　　　　//(红色下波浪线提示由于VS不识别，不影响运行)同步，等待所有线程把自己负责的元素载入到共享内存再执行下面代码

    for (int index = ; index < blockDim.x; index *= )

    {
　　　　　__syncthreads();　　　　　　　　　　 //同步，以防止归约过程中某个线程运行速度过快导致计算错误（后面线程计算使用错误的前面线程结果值）

　　　　if (tid % ( * index) == ) 
　　　　{ 
　　　　　　s_Para[tid] += s_Para[tid + index]; 
　　　　} 
　　} 

　　if (tid == )　　　　　　　　　　　　　　//整个数组相加完成后，将共享内存数组0号元素的值赋给全局内存数组0号元素，最后返回CPU端 
　　　　Para[tid] = s_Para[tid];  
}

void ParallelTest() 
{ 

　　double *Para; 
　　cudaMallocManaged((void **)&Para, sizeof(double) * N); //统一内存寻址，CPU和GPU都可以使用 

　　double ParaSum = ; 

　　for (int i=; i<N; i++)
 　 { 
　　　　Para[i] = (i + ) * 0.1; 　　　　　　　　//数组赋值 
　　　　ParaSum += Para[i]; 　　　　　　　　　　 //CPU端数组累加 
 　　} 
　　cout << " CPU result = " << ParaSum << endl; 　　//显示CPU端结果 

　　double d_ParaSum; 
　　d_ParallelTest << < , N>> > (Para); 　　　　　　　//调用核函数（一个包含N个线程的线程块） 

 　 cudaDeviceSynchronize(); 　　　　　　　　　　　　　　//等待设备端同步 
　　d_ParaSum = Para[]; 　　　　　　　　　　　　　　　　 //从累加过后数组的0号元素得出结果 
　　cout << " GPU result = " << d_ParaSum << endl;   //显示GPU端结果  
} 

int main() 
{

　　//并行归约  
　　ParallelTest(); 

　　system("pause"); 

　　return ; 
}

结果如下（CPU和GPU结果一致）：

CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）的更多相关文章

linux内核剖析（十一）进程间通信之-共享内存Shared Memory
共享内存共享内存是进程间通信中最简单的方式之一. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存允许两个或更多进程访问同一块内存,就如同 malloc() 函数向不同进程 ...
进程间通信之-共享内存Shared Memory--linux内核剖析（十一）
共享内存共享内存是进程间通信中最简单的方式之中的一个. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存同意两个或很多其他进程訪问同一块内存,就如同 malloc() 函数 ...
【CUDA 基础】5.0 共享内存和常量内存
title: [CUDA 基础]5.0 共享内存和常量内存 categories: - CUDA - Freshman tags: - 共享内存 - 常量内存 toc: true date: 2018 ...
(转)Linux环境进程间通信系列（五）：共享内存
原文地址:http://www.cppblog.com/mydriverc/articles/29741.html 共享内存可以说是最有用的进程间通信方式,也是最快的 IPC 形式.两个不同进程 A ...
【CUDA 基础】5.2 共享内存的数据布局
title: [CUDA 基础]5.2 共享内存的数据布局 categories: - CUDA - Freshman tags: - 行主序 - 列主序 toc: true date: 2018-0 ...
共享内存shared pool （3）：Library cache
Shared pool物理层面上由许多内存块(chunck)组成.从逻辑功能划分,Shared pool主要由三部分组成:Library cache,Dictionary cache和Control ...
python学习笔记——多进程中共享内存Value & Array
1 共享内存基本特点: (1)共享内存是一种最为高效的进程间通信方式,进程可以直接读写内存,而不需要任何数据的拷贝. (2)为了在多个进程间交换信息,内核专门留出了一块内存区,可以由需要访问的进程将 ...
第三十五章 POSIX共享内存
POSIX共享内存函数介绍 shm_open 功能: 用来创建或打开一个共享内存对象原型: int shm_open(const char *name, int oflag, mode_t mode ...
共享内存Distributed Memory 与分布式内存Distributed Memory
我们经常说到的多核处理器,是指一个处理器(CPU)上有多个处理核心(CORE),共享内存多核系统我们可以将CPU想象为一个密封的包,在这个包内有多个互相连接的CORES,每个CORE共享一个主存,所有 ...
共享内存shared pool （6）：追踪sql语句
构建实验数据 --使用NC50用户查询(会话1) SQL> conn NC50/NC50 Connected. SQL> create table emp as select * from ...

随机推荐

JVM系列(二)：JVM的内存模型
深入理解JVM内存模型 Java虚拟机在执行Java程序的过程中,把它所管理里的内存划分了不同的数据类型区域,作为一名开发者,我们需要了解jvm的内存分配机制以及这些不同的数据区域各自的作用. ...
使用vue-quill-editor富文本实现图片上传
1. 下载并引入 import { quillEditor, Quill } from "vue-quill-editor"; import { container, ImageE ...
jenkins邮件通知html魔板
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
PrototypePattern(原型模式)-----Java/.Net
原型模式(Prototype Pattern)是用于创建重复的对象,同时又能保证性能.这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式.
语言篇：Java环境
语言篇:Java环境 Java是什么? Java 是一项用于开发应用程序的技术语言,可以让 Web 变得更有意思和更实用.使用 Java 可以玩游戏.上载照片.联机聊天以及参与虚拟体验,并能够使用联机 ...
HDU5179 beautiful number 题解数位DP
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5179 题目大意: 给你一个数 \(A = a_1a_2 \cdots a_n\) ,我们称 \(A\) ...
NSOperationQueue队列依赖相关思考
添加依赖后,队列中网络请求任务有依赖关系时,任务结束判定以数据返回为准还是以发起请求为准? waitUntilFinished方法容易误解. 依赖关系 // // ViewController.m / ...
JUC 中的 Atomic 原子类总结
1 Atomic 原子类介绍 Atomic 翻译成中文是原子的意思.在化学上,我们知道原子是构成一般物质的最小单位,在化学反应中是不可分割的.在我们这里 Atomic 是指一个操作是不可中断的.即使是 ...
CF749D Leaving Auction set排序查找
CodeForces 749D. Leaving Auction 传送门 There are n people taking part in auction today. The rules of a ...
IO流之处理流用法总结
处理流之一:缓冲流1.为了提高数据读写的速度,Java API提供了带缓冲功能的流类,在使用这些流类时,会创建一个内部缓冲区数组,缺省使用8192个字节(8Kb)的缓冲区. 2.缓冲流要“套接”在相应 ...

CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）

CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）的更多相关文章

随机推荐

热门专题