【并行计算-CUDA开发】关于共享内存（shared memory）和存储体(bank)的事实和疑惑

关于共享内存（shared memory）和存储体(bank)的事实和疑惑

主要是在研究访问共享内存会产生bank conflict时，自己产生的疑惑。对于这点疑惑，网上都没有相关描述，

不管是国内还是国外的网上资料。貌似大家都是当作一个事实，一个公理，而没有对其仔细研究。还是我自己才学疏浅，不知道某些知识。

比如下面这篇讲解bank conflict的文章。

http://cuda-programming.blogspot.com/2013/02/bank-conflicts-in-shared-memory-in-cuda.html

我这里重点不在bank conflict，而是主要讨论shared memory和 memory bank的对应关系。

文中有这么一段描述：

Example

Scenario

Let’ssay we have an array of size 256 of integer type in global memory and we have256 threads in a single Block, and we want to copy the array to shared memory.Therefore every thread copies one element.

shared_a[threadIdx.x] = global_a[threadIdx.x];

So, what u think, does it trap into bank conflict? (Before readinganswer, think first)

Ok Ok!!

First let’s assume your arrays are say for example of the type int (a 32-bit word). Your codesaves these ints into shared memory, acrossany half warp the Kth thread is saving to the Kth memory bank. Sofor example thread 0 of the first
half warp will save to shared_a[0] which isin the first memory bank, thread 1 will save to shared_a[1], each half warp has16 threads these map to the 16 4byte banks. In the next half warp, the firstthread will now save its value into shared_a[16] which is
in the first memory bankagain. So if you use a 4byte word such int, float etc, then this example willnot result in a bank conflict.

翻译过来的意思大概是这样子。

有一个数组，元素类型为整型,个数为256，开始这个数组存储在全局内存里面。现在我们一个线程块里有256个线程，我们想把这个数组拷贝到共享内存。因此每个线程负责拷贝一个元素。

[python] view
plain copy

shared_a[threadIdx.x] = global_a[threadIdx.x];

想一下，这种访问是否会导致bank conflict呢？（看答案之前，先想想）

好的！

首先，我们假设你的数组元素是int类型的，占32位。你的代码把这些元素放进共享内存中，在任意一个half-warp，第k个线程刚好把元素放进第k个memory bank。

比如，第一个half warp中的线程0会放进shared_a[0]，她刚好在第一个memory bank中，线程1把放进shared_a[1]，每一个half warp有16个线程，刚好跟16个大小为4byte的bank对应。在下一个half warp中，第一个线程（线程0）会把值放进shared_a[16]，她刚好也是在第一个memory bank中。所以在这个例子中，如果你使用4byte的字，比如int，float等，最后是不会产生bank confict的。

好了，回到我的讨论。

从上面描述，我们知道一些事实。

假如一个线程块有一块共享内存 int shared_a[256]，该显卡设备的memory bank有16个。那么这块共享内存跟memory bank的对应关系是怎么样的？

例子说明一切，显然shared_a[0]在第1个bank中，shared_a[1]在第2个bank中，shared_a[15]在第16个bank中。

那么shared_a[16]呢？shared_a[17]呢？

根据文中的介绍，shared_a[16]在第1个bank中，shared_a[17]在第2个bank中。

规律是shared_a[index]在第（index%16+1）个bank中。

现在疑问来了，每一个bank的大小不是刚好为32位吗？（开普勒是64位）。

既然，shared_a[0]在第1个bank中，shared_a[0]已经是32位的了，那么shared_a[16]又是32位，放哪里？

shared_a[32]也是在第1个bank中，又放哪里？

一个bank怎么可以对应几个元素呢？

还是说bank只是缓存的地方，有其她地方存储，会自动切换的，类似缓存那样。

但是，貌似我没有找到任何资料有关这方面的解释。找了书，找了国内外的网上资料，都没有。

现在只好先记住这么一个事实了:shared_a[index]在第（index%16+1）个bank中。

本文作者:linger

本文链接：http://blog.csdn.NET/lingerlanlan/article/details/32712749

【并行计算-CUDA开发】关于共享内存（shared memory）和存储体(bank)的事实和疑惑的更多相关文章

linux内核剖析（十一）进程间通信之-共享内存Shared Memory
共享内存共享内存是进程间通信中最简单的方式之一. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存允许两个或更多进程访问同一块内存,就如同 malloc() 函数向不同进程 ...
进程间通信之-共享内存Shared Memory--linux内核剖析（十一）
共享内存共享内存是进程间通信中最简单的方式之中的一个. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存同意两个或很多其他进程訪问同一块内存,就如同 malloc() 函数 ...
【并行计算-CUDA开发】CUDA shared memory bank 冲突
CUDA SHARED MEMORY shared memory在之前的博文有些介绍,这部分会专门讲解其内容.在global Memory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问题 ...
【并行计算-CUDA开发】有关CUDA当中global memory如何实现合并访问跟内存对齐相关的问题
ps:这是英伟达二面面的一道相关CUDA的题目.<NVIDIA CUDA编程指南>第57页开始在合并访问这里,不要跟shared memory的bank conflic ...
【并行计算-CUDA开发】CUDA bank conflict in shared memory
http://hi.baidu.com/pengkuny/item/c8070b388d75d481b611db7a 以前以为 shared memory 是一个万能的 L1 cache,速度很快,只 ...
【并行计算-CUDA开发】Apple's OpenCL——再谈Local Memory
在OpenCL中,用__local(或local)修饰的变量会被存放在一个计算单元(Compute Unit)的共享存储器区域中.对于nVidia的GPU,一个CU可以被映射为物理上的一块SM(Str ...
【并行计算-CUDA开发】CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起
掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系.由于作者能力有限,难免有疏漏,恳请读者批评 ...
【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
【并行计算-CUDA开发】warp是调度和执行的基本单位而harf-warp为存储器操作基本单位
1.在用vs运行cuda的一些例子时,在编译阶段会报出很多警告: warning C4819 ...... 解决这个警告的方法是打开出现warning的文件,Ctrl+A全选,然后在文件菜单:file ...

随机推荐

URAL 2052 Physical Education（数位DP）
题目链接:https://vjudge.net/contest/254142#problem/G 参考题解:https://blog.csdn.net/zearot/article/details/4 ...
BZOJ 1027: [JSOI2007]合金 (计算几何+Floyd求最小环)
题解就看这位仁兄的吧-不过代码还是别看他的了- 同样的方法-我200ms,他2000ms. 常数的幽怨- CODE #include <bits/stdc++.h> using names ...
Waiting (TTFB) 时间
什么是 Waiting (TTFB) 时间 TTFB 是 Time to First Byte 的缩写,指的是浏览器开始收到服务器响应数据的时间(后台处理时间+重定向时间),是反映服务端响应速度的重要 ...
前端css知识实现自动打字，文字滚动
HTML部分: <div class="div1"> <div class="div2">文字文字文字文字文字文字文字文字文字文字文字文 ...
国内Maven镜像仓库
<mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http:/ ...
微信小程序开发入门教程（三）---小程序云开发支付功能
支付(shoukuan)功能真的很重要!由于我还没有商户号,以下代码未实际验证 1.服务端进入云开发,新建云函数pay(应该也可以在开发者工具编写后上传) 编写后端代码index.js这里用到第三方 ...
@JsonIgnore等
作用:在json序列化时将java bean中的一些属性忽略掉,序列化和反序列化都受影响. 使用方法:一般标记在属性或者方法上,返回的json数据即不包含该属性. 场景模拟: 需要把一个List< ...
洛谷P4317 花神的数论题
洛谷题目链接数位$dp$ 我们对$n$进行二进制拆分,于是就阔以像十进制一样数位$dp$了,基本就是套模板.. 接下来是美滋滋的代码时间~~~ #include<iostream> #i ...
xgboost 特征重要性计算
在XGBoost中提供了三种特征重要性的计算方法: ‘weight’ - the number of times a feature is used to split the data across ...
php shmop windows 信号量锁
if (!function_exists('sem_get')) { function sem_get($key) { return fopen(__FILE__ . '.sem.' . $key, ...

【并行计算-CUDA开发】关于共享内存（shared memory）和存储体(bank)的事实和疑惑

关于共享内存（shared memory）和存储体(bank)的事实和疑惑

【并行计算-CUDA开发】关于共享内存（shared memory）和存储体(bank)的事实和疑惑的更多相关文章

随机推荐

热门专题