全局存储带宽(DRAM)

全局内存是动态随机访问的方式访问内存．我们希望访问DRAM的时候非常快，实际情况是DRAM中出来的数据非常非常慢，这就好比，理想状态是泄洪，水倾巢而出，气势宏伟，实际取水却像是用吸管在喝饮料，速度非常慢．

通常来看，我们会通过优化算法减少DRAM的访问次数．

由上图可以看出，用户访问需要的Address会被分成Row addr和Column address,　通过row decoder -> Core Array -> Sense Amps -> Column Latches ->到这里会非常宽，但是到-> Mux 会变得非常窄，然后通过off-chip data bus 给到处理器．这就是DRAM bank的组织框架．

DRAM 中从core array中读取一个cell是非常慢的，cell是指一个存储单元.

• DDR: Core speed = 1⁄2 interface speed
• DDR2/GDDR3: Core speed = 1⁄4 interface
speed
• DDR3/GDDR4: Core speed = 1⁄8 interface
speed
• ... likely to be worse in the future

随着时间的推移，市场上DDR的容量越来越大，但是访问速度却是越来越慢.

为什么core array中读取非常慢，如下图：

如下图：

假设我们有1000个cells，在水平方向(因为是行吗)是很长的,当访问其中的一个cell，其实是访问在访问某一个bit，当为１时表示存在，０表示不存在．而这个bit是存储在一个很小的电容里面，当想这个电容的晶体管里面充电，这个值是１，不充电则是０．　这个在纵向会连接到一个检测放大器（sense amplifier），纵向线是一个非常缓慢的过程，记得这个即可．

DRAM Bursting

对于DDR{2,3} cores 核心的频率是接口频率的1/N. 为了提高访问的速度，DRAM中提供更多的端口数目(lanes)，类似收费站提供很多的收费口来减轻拥堵问题一样．虽然单一时间慢，但是同时执行的多，所以总的情况会变快．

DDR2/GDDR3: buffer的宽度是借口宽度的４倍

为了降低访问的次数，当处理器访问一段数据时，实际上传递给处理器的是围绕这一段数据的一个更大的数据．这个就是dram burst 设计．所以一个时钟周期访问的数据，其实是把这个之后的几个时钟周期也访问的数据一起取出来，如果CPU不需要这些多余的数据，其实就可以说是浪费了，所以为了充分利用DRAM的这个特性.

上面提到的增加更多的接口数目说的是DRAM bank.

例子：

nVidia GTX280 GPU的极限带宽是141.7GB/s

DDR3的接口速度是1.1GHz, core speed是276Mhz, 是接口速度的1/4.

对于一个64bit的接口，时钟应该是２倍，因为在上升沿和下降沿都由数据传输．

64bit/8 = 8Bytes.

８*2 *1.1 = 17.６GB/s 这个远远达不到141.7.

141.7/17.6 = 8 memory channels . 这样可以达到这个速度．

内存合并访问

为了利用dram burst的特性，所以我们就有了合并内存访问．通过合并内存访问的次数提高访问memory的效率．

GPU的存储是row-major，是以行来组织数据的．

对于GPU来说，由于thread是异步执行的．下面这两种访问模式一种是合并访问的，利用到DRAM,一种是非合并访问：

Ｂ是合并访问，　Ａ不是．B是以纵向的访问方向，A是横向的访问方向．

所以总结一条规则是：
GPU纵向访问内存可以实现合并访问的效果．

3.1 全局存储带宽与合并访问　-- Global Memory(DRAM) bandwidth and memory coalesce的更多相关文章

【并行计算-CUDA开发】有关CUDA当中global memory如何实现合并访问跟内存对齐相关的问题
ps:这是英伟达二面面的一道相关CUDA的题目.<NVIDIA CUDA编程指南>第57页开始在合并访问这里,不要跟shared memory的bank conflic ...
【python】为什么修改全局的dict变量不用global关键字
转自:http://my.oschina.net/leejun2005/blog/145911?fromerr=qnPCgI19#OSC_h4_8 为什么修改字典d的值不用global关键字先声明呢? ...
[Swift]LeetCode775. 全局倒置与局部倒置 | Global and Local Inversions
We have some permutation Aof [0, 1, ..., N - 1], where N is the length of A. The number of (global) ...
CUDA 进阶学习
CUDA基本概念 CUDA网格限制 1.2CPU和GPU的设计区别 2.1CUDA-Thread 2.2CUDA-Memory(存储)和bank-conflict 2.3CUDA矩阵乘法 3.1 全局 ...
Flipping Bits in Memory Without Accessing Them: An Experimental Study of DRAM Disturbance Errors
目录 . Rowhammer Introduction . Rowhammer Principle . Track And Fix 1. rowhammer introduction 今天的DRAM ...
Nodejs随笔（三）：全局对象之global
首先,进入node REPL: mesogene@mesogene-team:~$ node > 查看global对象,发现其他全局对象(包括Buffer.require对象)以及全局方法都包含 ...
python27期day10：函数的动态参数、函数的注释、函数的名称空间、函数的嵌套、global（修改全局的）、nonlocal（修改局部的）、函数名的第一类对象及使用、作业题。
1.动态参数的作用: 能够接收不固定长度参数位置参数过多时可以使用动态参数 * args是程序员之间约定俗称(可以更换但是不建议更换) * args获取的是一个元组 ** kwargs获取的是一个字 ...
Oracle 分区表的新增、修改、删除、合并。普通表转分区表方法
一. 分区表理论知识 Oracle提供了分区技术以支持VLDB(Very Large DataBase).分区表通过对分区列的判断,把分区列不同的记录,放到不同的分区中.分区完全对应用透明. Orac ...
oracle_分区表的新增、修改、删除、合并。普通表转分区表方法
一. 分区表理论知识Oracle提供了分区技术以支持VLDB(Very Large DataBase).分区表通过对分区列的判断,把分区列不同的记录,放到不同的分区中.分区完全对应用透明. Oracl ...

随机推荐

团体程序设计天梯赛-练习集L2-006. 树的遍历
L2-006. 树的遍历时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者陈越给定一棵二叉树的后序遍历和中序遍历,请你输出其层序遍历 ...
SQLite数据库简介(转)
大家好,今天来介绍一下SQLite的相关知识,并结合Java实现对SQLite数据库的操作. SQLite是D.Richard Hipp用C语言编写的开源嵌入式数据库引擎.它支持大多数的SQL92标准 ...
Tiny6410 交叉编译helloworld程序
在工作目录下建立helloworld.c文件 #include <stdio.h> main() { printf("helloworld!\n"); } 保存关闭后. ...
HDU 1158 Employment Planning （DP）
题目链接题意 : n个月,每个月都至少需要mon[i]个人来工作,然后每次雇佣工人需要给一部分钱,每个人每个月还要给工资,如果解雇人还需要给一笔钱,所以问你主管应该怎么雇佣或解雇工人才能使总花销最小 ...
hdu 3032 Nim or not Nim? 博弈论
这题是Lasker’s Nim. Clearly the Sprague-Grundy function for the one-pile game satisﬁes g(0) = 0 and g( ...
overrides final method getUnknownFields.()Lcom/google/protobuf/UnknownFieldSet 错误解决
使用java代码连接hbase服务器报错: java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientName ...
jmeter 响应结果分析二
转自:http://www.cnblogs.com/Carrie_Liang/archive/2008/11/10/1330997.html 前文再续,续接上一回.上一篇讲了如何利用Assertion ...
C++ 通过对象方式、指针方式两种方式去访问成员变量（属性或者方法）
准备 1.在VS中新建一个项目-Viscal C++ ---常规--空项目 2.建立一个.h的头文件定义一个类声明其成员(C#中的属性和方法) #include<iostream> # ...
classpath、path、JAVA_HOME的作用及JAVA环境变量配置
CLASSPATH是什么?它的作用是什么? 它是javac编译器的一个环境变量.它的作用与import.package关键字有关.当你写下improt java.util.*时,编译器面对import ...
POJ 1879 Tempus et mobilius Time and motion 队列和栈
很简单的队列和栈的应用,不过读明白题意非常重要:(直接引用白书的题解)三个轨道,一个库.分别是分钟单位的轨道,5min单位的轨道,一小时单位的轨道,还有就是n容量的库.每过一分钟,一个小球从库里面出来 ...

3.1 全局存储带宽与合并访问 -- Global Memory(DRAM) bandwidth and memory coalesce

全局存储带宽(DRAM)

DRAM Bursting

内存合并访问

3.1 全局存储带宽与合并访问 -- Global Memory(DRAM) bandwidth and memory coalesce的更多相关文章

随机推荐

热门专题

3.1 全局存储带宽与合并访问　-- Global Memory(DRAM) bandwidth and memory coalesce

3.1 全局存储带宽与合并访问　-- Global Memory(DRAM) bandwidth and memory coalesce的更多相关文章