CUDA优化

cuda程序优化

一：程序优化概述
1：精度
在关键步骤使用双精度，其他步骤使用单精度，以获得指令吞吐量和精度的平衡。

2：延迟
先缓冲一定量数据，在交给GPU计算。可以获得较高的数据吞吐量。

3：计算量
1）：绝对计算量
当计算量较少时，不因用GPU
2）：相对计算量
当计算量中的并行站大多比例，因使用GPU并行计算。

4：优秀的CUDA程序
1）给点数据规模下，选用的算法复杂度不明显高于最优算法
2）活动的线程束应使SM满载，且活动的线程块数应大于等于2，可以有效隐藏延迟。
3）当瓶颈出现在运算时，说明指令流已经做了最好的优化
4）当瓶颈出现在IO或访存时，表明选择了最好的存储器与访存方式，以获得最大的带宽。瓶颈----〉带宽

5：CUDA程序开发流程与优化
1）确定串行与并行部分，选择合适算法
2）按照算法确定数据与任务的划分，将每个需要并行并行实现的步骤映射为一个CUDA两层并行模型的核函数。
3）编写一个能够正常运行的程序。
4）优化显存访问，避免显存带宽成为瓶颈。---〉只有将带宽问题优化，才能使优化结果明显
5）优化指令流
6）资源均衡。调整shared memory 与 register的分配使用量，获得更高的ＳＭ占有率
7）与主机通信优化

6：优化显存访问方式
1）在数据只访问一次，且满足合并访问的情况下，考虑使用zeroy copy memory
2）除非非常必要，应尽量避免将线程的私有变量分配到local memory；
3）为满足合并访问，保证访问的首地址从16的整倍数开始，对数据类型进行对齐（__align）,采用cudaMallocPitch cudaMalloc3D分配显存

7：优化指令流
１）若只需使用少量线程，尽量使用 if threadId <Ｎ　
２）采用原子函数，完成比较复杂的算法，保证结果正确性
３）避免多余的同步

８：资源均衡
　１）提高shared使用率
修改算法指令，动态分配，调整ｂｌｏｃｋ大小。
２·）节约寄存器使用
　　使用shared memory存储变量，尽量使用括号减短变量声明周期
　　使用占用寄存器较小的等效指令代替原有指令。＿ｓｉｎ代替ｓｉｎ

９：提高带宽
　１）使用ｃｕｄａＭａｌｌｏｃＨｏｓｔ分配主机端内存
　２）使用ｚｅｒｏｙｃｏｐ　和　ｗｒｉｔｅｃｏｍｂｉｎｅｄ内存
　３）一次缓存较多数据，再一次性传输
　４）使用流和异步处理隐藏与主机通信时间

CUDA优化的更多相关文章

漫谈CUDA优化
作者:Lawliet 翻译:仿佛若有光前言: 几个月前,我根据 Simoncelli 2016 年的论文编写了自己的自动编码器,用于研究目的.一开始,我想使用一些流行的深度学习框架(例如 Ten ...
GPU优化方法[转]
CUDA优化的最终目的是:在最短的时间内,在允许的误差范围内完成给定的计算任务.在这里,“最短的时间”是指整个程序运行的时间,更侧重于计算的吞吐量,而不是单个数据的延迟.在开始考虑使用GPU和CPU协 ...
CUDA C Programming Guide 在线教程学习笔记 Part 3
▶ 表面内存使用 ● 创建 cuda 数组时使用标志 cudaArraySurfaceLoadStore 来创建表面内存,可以用表面对象(surface object)或表面引用(surface re ...
ubuntu16.04 Detectron目标检测库配置（包含GPU驱动，Cuda，Caffee2等配置梳理）
Detectron概述 Detectron是Facebook FAIR开源了的一个目标检测(Object Detection)平台. 用一幅图简单说明下Object Detection.如Mask R ...
CUDA并行计算 | CUDA算法效率提升关键点概述
文章目录前言存取效率计算效率性能优化要点展现足够的并行性优化内存访问优化指令执行前言 CUDA算法的效率总的来说,由存取效率和计算效率两类决定,一个好的CUDA算法必定会让两类效率 ...
CUDA Pro：通过向量化内存访问提高性能
CUDA Pro:通过向量化内存访问提高性能许多CUDA内核受带宽限制,而新硬件中触发器与带宽的比率不断提高,导致带宽受限制的内核更多.这使得采取措施减轻代码中的带宽瓶颈非常重要.本文将展示如何在C ...
pytorch_SRU(Simple Recurrent Unit)
导读本文讨论了最新爆款论文(Training RNNs as Fast as CNNs)提出的LSTM变种SRU(Simple Recurrent Unit),以及基于pytorch实现了SRU,并 ...
语义分割丨PSPNet源码解析「训练阶段」
引言之前一段时间在参与语义分割的项目,最近有时间了,正好把这段时间的所学总结一下. 在代码上,语义分割的框架会比目标检测简单很多,但其中也涉及了很多细节.在这篇文章中,我以PSPNet为例,解读一下 ...
Vulkan移植GpuImage(四)从D到O的滤镜
现把D到O的大部分滤镜用vulkan的ComputeShader实现了,列举其中一些有点特殊的说明. GaussianBlurPosition 指定区域高斯模糊没有按照GPUImage里的方式实现, ...

随机推荐

PAT 1009 Product of Polynomials (25分) 指数做数组下标，系数做值
题目 This time, you are supposed to find A×B where A and B are two polynomials. Input Specification: E ...
MySQL数据库回表与索引
目录回表的概念 1.stu_info表案例 2.查看刚刚建立的表结构 3.插入测试数据 4.分析过程 5.执行计划回表的概念先得出结论,根据下面的实验.如果我要获得['liu','25']这条记 ...
npm加载包报错：syscall access
$ npm install --save-dev babel-plugin-syntax-dynamic-import npm WARN checkPermissions Missing write ...
PHP+Apache+MySQL+phpMyAdmin安装和配置
下载网址: PHP:http://windows.php.net/download 版本: php-5.6.31-Win32-VC11-x64.zip Apache:https://www.a ...
Angular第三方UI组件库------ionic
一.Angular UI组件库 ------------ionic 1. 官网:https://ionicframework.com 文档:https://ionicframework.com/d ...
13.2 Go练习题答案
13.2 Go练习题答案练习题1: 创建一个goroutine与主线程按顺序相互发送信息若干次且打印 package temp import "fmt" //创建一个gorou ...
easyui API
http://www.jeasyuicn.com/api/docTtml/index.htm
PAT-1080 Graduate Admission （结构体排序）
1080. Graduate Admission It is said that in 2013, there were about 100 graduate schools ready to pro ...
CF834D
题目链接:http://codeforces.com/contest/834/problem/D 题目大意:将一个有n个数的数列分成k段,每段的价值为该段中不同数字的个数,求k段的最大总价值. 解题思 ...
[推荐]大量 Blazor 学习资源（一）
前言 / Introduction Blazor 是什么? Blazor 允许您使用 C# 而不是 JavaScript 构建交互式 Web UI. Blazor 应用由使用 C#.HTML 和 CS ...

CUDA优化

CUDA优化的更多相关文章

随机推荐

热门专题