四 GPU 并行编程的存储系统架构

前言

　　在用 CUDA 对 GPU 进行并行编程的过程中，除了需要对线程架构要有深刻的认识外，也需要对存储系统架构有深入的了解。

　　这两个部分是 GPU 编程中最为基础，也是最为重要的部分，需要花时间去理解吸收，加深内功。　

了解 GPU 存储系统架构的意义

　　CUDA 编程架构的设计思路本身也就是让程序员去使用缓存，而不是让缓存像 CPU 编程结构那样对程序员透明。

　　通过对所使用存储结构的优化，能够让程序的并行后的效果得到很大提高。

　　因此，这个问题是需要我们在开发全程中考虑的。

第一层：寄存器

　　每个流处理器中的寄存器数以千计，每个线程都能分配到其私有的寄存器，这样做的好处是使得线程的切换几乎是零开销 (也许说是线程束的切换会更为准确)。

　　应当在硬件条件允许的情况下，尽可能地使用寄存器 (注意是硬件条件的允许之下)。

　　在核函数中定义的变量就是寄存器变量。

第二层：共享内存

　　共享内存的本质是可受用户控制的一级缓存。每个 SM 中的一级缓存与共享内存共享一个 64 KB的内存段。在费米架构中，可以为每个块定义 16 KB的共享内存。灵活地使用共享内存，能够大幅度提高显存的带宽。此外，共享内存也是实现块内线程间通信的有效工具。

　　使用时需要注意的一个地方是，只有在确定需要重复利用此空间的数据，或者明确要使块内线程进行通信的前提下，才考虑使用共享内存。(原因不解释)

　　使用时需要注意的另一个地方是应当尽可能地避免存储体冲突。这里所谓的存储体是指实现共享内存的硬件 - 一个费米架构的设备上有 32 个存储体。解决此问题的关键在于：顺序访问存储体。

　　实际开发中，常常将一个任务分解成多个部分(不论是任务分解还是数据分解)，共享内存在其中扮演着任务块工作任务汇总或者数据块工作任务汇总的角色。

　　核函数中定义的变量加上__shared__声明后就会存放在共享内存中了。

第三层：常量内存

　　常量内存其实只是全局内存的一种虚拟地址形式，并没有特殊保留的常量内存块。

　　使用起来非常方便，在主机端对需要放到常量内存区的变量添加 __constant__ 关键字声明之即可。

　　唯独需要注意的是，如果一个常量仅仅是一个字面值，那么将它声明为宏也行，例如 PI 这样的常数就一般定义为宏。

第四层：全局内存

　　全局内存，也就是显存。

　　在主机端开辟的显存空间均属于全局内存范畴。

　　使用全局内存的时候，需要注意的是应当学会对显存采取合并的访问方式。何谓合并的访问方式呢？请参阅下篇文章。

四 GPU 并行编程的存储系统架构的更多相关文章

第四篇：GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
三 GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别?本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流, ...
第三篇：GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
第五篇：浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
四、并行编程 - 并行LINQ（PLINQ）的使用。AsParallel
用于对内存中的数据做并行运算,也就是说其只支持 LINQ to Object 的并行运算一.AsParallel(并行化) 就是在集合后加个AsParallel(). 例如: , ); == ); ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...
GPU并行编程：内核及函数的实现
原文链接回想一下我们之前在设备上使用“kernelFunction<<<1,1>>>(..)”执行一个函数的代码,我在那里还曾说过后面会细说,本文就详细介绍一下参 ...

随机推荐

uva 10668
#include <iostream> #include <cstdlib> #include <cstdio> #include <cmath> us ...
OkHttp使用全解析（转）。
Android系统提供了两种HTTP通信类,HttpURLConnection和HttpClient.关于HttpURLConnection和HttpClient的选择>>官方博客尽管Go ...
精通JS 笔记
一,javascript数据类型:undefined,null,boolean,number,string,object 五种加一种复杂类型. 注意大小写,区分大不写函数:functiontypeof ...
（DFS）hdoj1198-Farm Irrigation
题目链接 DFS的简单应用,比较繁琐的是处理输入的英文字母.用并查集也可以做(可是笔者现在还没有掌握并查集,之前只用过一次,以后学会回来补上) #include<cstdio> #incl ...
vs2010设置编辑器背景颜色
在nopad++中,双击选中某个关键字后,在文档中所有出现该关键字的地方都会高亮,非常方便查看在那些地方有调用. VS2010的默认颜色不够明显(尤其是将系统背景色改为苹果绿保护色(Hue:85, ...
[vijos P1595] 学校网络
有生以来做的第二道IOI题目居然也是96'的,又是一道比我还老的题目. 纯属复习或者说再学一遍Tarjan算法,本题的主要算法就是Tarjan+缩点,对于两个子问题的答案,根据解题:强连通缩点为拓扑图 ...
hdu 1033 (bit masking, utilization of switch, '\0' as end of c string) 分类： hdoj 2015-06-15 21:47 37人阅读评论(0) 收藏
bit masking is very common on the lower level code. #include <cstdio> #include <algorithm&g ...
julia生成指定格式的字符串.jl
julia生成指定格式的字符串.jl """ julia生成指定格式的字符串.jl http://bbs.bathome.net/thread-39829-1-1.htm ...
ODI 12c中使用Groovy脚本创建工程
本文主要介绍在ODI中使用groovy创建工程,并添加一个表转换的映射.要创建groovy脚本,可以从ODI Studio的菜单:工具->Groovy->新脚本打开一个编辑窗口.在执行下 ...
string(Integer)类的equals和==区别和联系（验证密码的时候用得到）
“==”在八种原始数据类型中,判断的是两边的值是否相等.对于对象类型来说,判断的是内存地址,所以为true所满足的条件就是两边的引用指向同一个对象. 比如String s1 = "abcde ...

四 GPU 并行编程的存储系统架构

四 GPU 并行编程的存储系统架构的更多相关文章

随机推荐

热门专题