【并行计算-CUDA开发】CUDA存储器模型

CUDA存储器模型

除了执行模型以外，CUDA也规定了存储器模型（如图2所示）和一系列用于主控CPU与GPU间通信的不同地址空间。图中红色的区域表示GPU片内的高速存储器，橙色区域表示DRAM中的的地址空间。

图2 CUDA存储器模型

首先，是最底层的寄存器(register,REG)。对每个线程来说，寄存器都是私有的--这与CPU中一样。

如果寄存器被消耗完，数据将被存储在本地存储器(local memory)。本地存储器对每个线程也是私有的，但是数据时被保存在帧缓冲区DRAM中，而不是片内的寄存器或者缓存中。线程的输入和中间输出变量将被保存在寄存器或者本地存储器中。

然后是用于线程间通信的共享存储器。共享存储器是一块可以被同一block中的所有thread（上节提到过，一个block最多可以有512个thread）访问的可读写存储器。访问共享存储器几乎和访问寄存器一样快，是实现线程间通信的延迟最小的方法。共享存储器可以实现许多不同的功能，如用于保存共用的计数器（例如计算循环迭代次数）或者block的公用结果（例如计算512个数的平均值，并用于以后的计算）。

除此以外，还有两种只读的地址空间—常数存储器和纹理存储器（constant memory and texture memory），它们是利用GPU用于图形计算的专用单元发展而来的。

常数存储器空间较小(只有64k)，支持随机访问。

纹理存储器尺寸则大得多，并且支持二维寻址（传统的缓存只支持一维寻址）。

这两种存储器实际存在于帧缓冲区DRAM中，但由于它们的只读性质，在GPU片内可以进行缓存，从而加快访问速度。这两种存储器并不要求缓存一致性—它们是只读的。但这也意味着如果CPU或者GPU要更改常数存储器或者纹理存储器的值，缓存中的值在更新完成之前也无法使用。CUDA程序中，常数存储器用于存储需要经常访问的只读参数，而是用插值或者滤波的纹理存储器访问对大尺寸的二维或者三维图象或者采样序列进行高带宽的流式访问。

最后是全局存储器（global memory），使用的是普通的显存。整个网格中的任意线程都能读写全局存储器的任意位置，并且既可以从CPU访问，也可以从CPU访问。由于全局存储器是可写的，GPU片内没有对其进行缓存。

原文地址：http://blog.itpub.net/22785983/viewspace-619774/

【并行计算-CUDA开发】CUDA存储器模型的更多相关文章

CUDA开发 - CUDA 版本
"CUDA runtime is insufficient with CUDA driver"CUDA 9.2: 396.xx CUDA 9.1: 387.xx CUDA 9.0: ...
【并行计算-CUDA开发】CUDA并行存储模型
CUDA并行存储模型 CUDA将CPU作为主机(Host),GPU作为设备(Device).一个系统中可以有一个主机和多个设备.CPU负责逻辑性强的事务处理和串行计算,GPU专注于执行高度线程化的并行 ...
【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
CUDA上深度学习模型量化的自动化优化
CUDA上深度学习模型量化的自动化优化深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参数 ...
Windows平台CUDA开发之前的准备工作
CUDA是NVIDIA的GPU开发工具,眼下在大规模并行计算领域有着广泛应用. windows平台上面的CUDA开发之前.最好去NVIDIA官网查看说明,然后下载对应的driver. ToolKits ...
【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...
【CUDA开发】CUDA面内存拷贝用法总结
[CUDA开发]CUDA面内存拷贝用法总结标签(空格分隔): [CUDA开发] 主要是在调试CUDA硬解码并用D3D9或者D3D11显示的时候遇到了一些代码,如下所示: CUdeviceptr g_ ...
【CUDA开发】CUDA编程接口（一）------一十八般武器
子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...
【神经网络与深度学习】【CUDA开发】caffe-windows win32下的编译尝试
[神经网络与深度学习][CUDA开发]caffe-windows win32下的编译尝试标签:[神经网络与深度学习] [CUDA开发] 主要是在开发Qt的应用程序时,需要的是有一个使用的库文件也只是 ...

随机推荐

retrying failed action with response code: 403 错误解决
[2019-06-10T06:52:51,610][INFO ][logstash.outputs.elasticsearch] retrying failed action with respons ...
Maven简介、安装、配置
1.Maven是什么? Maven是一种跨平台的项目管理工具,是一个开源的项目,主要服务于基于java平台的项目构建.依赖管理和项目信息管理.Maven还提供了中央仓库,能帮助我们自动的下载构件.Ma ...
hbuilder离线打包iOS，xcode开发卡在启动页注意点
1.Display Name的名称与manifest.json中的name保持一致. 2.项目文件夹名.contro.xml中的appid.manifest.json中的id一致
Luogu P1066 2^k进制数组合数学
分两种情况:$k|n$和$k$不整除$n$ 如果$k|n$,那么长度为$n$的二进制数就能被恰好分成$n/k$个块:所以若某个数长度是$x$个块,由于每个块内能填不同的$2^k-1$个数,那么就有$C ...
OSError: cannot open resource（pillow错误处理）
https://www.jianshu.com/p/c64ae3e9b196 pillow使用备忘之OSError: cannot open resource错误处理在使用pillow过程中,Pyt ...
小米 oj 发奖励（思维）
发奖励序号:#75难度:有挑战时间限制:1000ms内存限制:10M 描述小明老师准备给一些得到小红花的小朋友发糖果做为奖励. 假设有n个小朋友,每个小朋友拥有的小红花为m(n)个,他让这n个小 ...
Dean and Schedule （URAL 2026）
Problem A new academic year approaches, and the dean must make a schedule of classes for first-year ...
ie浏览器中时间转换
var begintime = $("#start").val(); var lastLoginTimeStart =new Date(begintime).getTime();/ ...
HTML语义化是什么？为什么要语义化？
HTML语义化HTML的语义化总结为: 用最恰当的标签来标记内容. 该如何理解呢?比如需要加入一个标题,这个标题的字体比正文的要大写,还要加粗.能够实现这种效果的方法有很多,比如用CSS样式进行渲染. ...
黑马lavarel教程---9、缓存操作
黑马lavarel教程---9.缓存操作一.总结一句话总结: legend2项目中自己写的哪些文件操作都可以通过这里的缓存实现,简单方便 1.lavarel中如何使用后端主流的缓存如 Memcac ...

【并行计算-CUDA开发】CUDA存储器模型

【并行计算-CUDA开发】CUDA存储器模型的更多相关文章

随机推荐

热门专题