第四篇：GPU 并行编程的存储系统架构

穆晨 2024-08-25 18:29:56 原文

前言

在用 CUDA 对 GPU 进行并行编程的过程中，除了需要对线程架构要有深刻的认识外，也需要对存储系统架构有深入的了解。

这两个部分是 GPU 编程中最为基础，也是最为重要的部分，需要花时间去理解吸收，加深内功。　

了解 GPU 存储系统架构的意义

CUDA 编程架构的设计思路本身也就是让程序员去使用缓存，而不是让缓存像 CPU 编程结构那样对程序员透明。

通过对所使用存储结构的优化，能够让程序的并行后的效果得到很大提高。

因此，这个问题是需要我们在开发全程中考虑的。

第一层：寄存器

每个流处理器中的寄存器数以千计，每个线程都能分配到其私有的寄存器，这样做的好处是使得线程的切换几乎是零开销 (也许说是线程束的切换会更为准确)。

应当在硬件条件允许的情况下，尽可能地使用寄存器 (注意是硬件条件的允许之下)。

在核函数中定义的变量就是寄存器变量。

第二层：共享内存

共享内存的本质是可受用户控制的一级缓存。每个 SM 中的一级缓存与共享内存共享一个 64 KB的内存段。在费米架构中，可以为每个块定义 16 KB的共享内存。灵活地使用共享内存，能够大幅度提高显存的带宽。此外，共享内存也是实现块内线程间通信的有效工具。

使用时需要注意的一个地方是，只有在确定需要重复利用此空间的数据，或者明确要使块内线程进行通信的前提下，才考虑使用共享内存。(原因不解释)

使用时需要注意的另一个地方是应当尽可能地避免存储体冲突。这里所谓的存储体是指实现共享内存的硬件 - 一个费米架构的设备上有 32 个存储体。解决此问题的关键在于：顺序访问存储体。

实际开发中，常常将一个任务分解成多个部分(不论是任务分解还是数据分解)，共享内存在其中扮演着任务块工作任务汇总或者数据块工作任务汇总的角色。

核函数中定义的变量加上__shared__声明后就会存放在共享内存中了。

第三层：常量内存

常量内存其实只是全局内存的一种虚拟地址形式，并没有特殊保留的常量内存块。

使用起来非常方便，在主机端对需要放到常量内存区的变量添加 __constant__ 关键字声明之即可。

唯独需要注意的是，如果一个常量仅仅是一个字面值，那么将它声明为宏也行，例如 PI 这样的常数就一般定义为宏。

第四层：全局内存

全局内存，也就是显存。

在主机端开辟的显存空间均属于全局内存范畴。

使用全局内存的时候，需要注意的是应当学会对显存采取合并的访问方式。何谓合并的访问方式呢？请参阅下篇文章。

第四篇：GPU 并行编程的存储系统架构的更多相关文章

四 GPU 并行编程的存储系统架构
前言在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解. 这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理 ...
第三篇：GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别? 本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流 ...
三 GPU 并行编程的运算架构
前言 GPU 是如何实现并行的?它实现的方式较之 CPU 的多线程又有什么分别?本文将做一个较为细致的分析. GPU 并行计算架构 GPU 并行编程的核心在于线程,一个线程就是程序中的一个单一指令流, ...
第五篇：浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
五浅谈CPU 并行编程和 GPU 并行编程的区别
前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺 ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
GPU并行编程小结
http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...
GPU并行编程：内核及函数的实现
原文链接回想一下我们之前在设备上使用“kernelFunction<<<1,1>>>(..)”执行一个函数的代码,我在那里还曾说过后面会细说,本文就详细介绍一下参 ...
第六篇：GPU 并行优化的几种典型策略
前言如何对现有的程序进行并行优化,是 GPU 并行编程技术最为关注的实际问题.本文将提供几种优化的思路,为程序并行优化指明道路方向. 优化前准备首先,要明确优化的目标 - 是要将程序提速 2 倍? ...

随机推荐

基于jQuery左右滑动切换图片代码
分享一款基于jQuery左右滑动切换图片代码.这是一款基于jQuery实现的左右滑动切换焦点图代码.效果图如下: 在线预览源码下载实现的代码: <div class="v_ou ...
【C#】删除集合（Collection）里的元素（Item）
问题:C#中如果想要删除一个集合中的所有元素,直接for循环边读边删除是不可行的.因为每删除一个元素,后面的元素就会往前排,即它们的索引会向前-1,然后i还是正常的自增,就会跳过下一个元素. // 错 ...
[sz,rz]使用sz/rz在两台Linux设备之间传输数据
转自:https://superuser.com/questions/604055/using-rz-and-sz-under-linux-shell zsend #!/bin/sh DEV=/dev ...
Oracle数据误删除的恢复操作
flashbackup 闪回操作: 1. 打开表的闪回功能: alter table dw_stg.fm_user_play_d enable row movement; 2. 查询要闪回的表的记录信 ...
Kafka_Zookeeper_环境搭建使用
Kafka 安装和测试 1. 简介 kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率. i. 消息的发布(publish) ...
Storm ack和fail机制再论
转自:http://www.cnblogs.com/fxjwind/p/3806404.html 之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下首先开启storm tracker机制的 ...
关于Cocos2d-x程序运行时候提示关闭程序的框框的解决方法
1.这个情况是资源没有被加载的表现如果AppDelegate.cpp里面没有文件索引的语句 FileUtils::getInstance()->addSearchPath("res& ...
python + opencv: kalman 跟踪
之前博文中讲解过kalman滤波的原理和应用,这里用一个跟踪鼠标的例程来演示怎么在opencv里用自带的kalman函数进行目标跟踪,文章的内容对做图像跟踪有借鉴意义.文章主要是网络资源进行整理和简单 ...
【C#】获取电脑DPI
public static class DPIGeter { /// <summary> /// 获取DPI /// </summary> /// <param name ...
标识符的长度应当符合“min-length && max-information”原则
标识符的长度应当符合“min-length && max-information”原则. 几十年前老 ANSI C 规定名字不准超过 6 个字符,现今的 C++/C 不再有此限制.一 ...