利用GPU改善程序性能的一点心得

1. 硬件方面

a. 流处理器个数

　　　　 Gpu内部的计算单元个数，决定分析模块实时性的关键因素。

　　　　实测效果： gtx760 1152个

Gtx960 1024个

单路1080p运动检测 760的实时性好于960

b.内存到显存（北桥）传输带宽

暨pcie总线带宽， PCI-E 3.0 x16双向速度大约为32GB/s

8路1080p 25fps双向吞吐量为 3G/s, 按照理论减半原则16G/s的带宽是足够使用。

但相比现在显存的带宽达到112GB/s及以上, 所以这个北桥带宽任然是限制GPU性能主要性能瓶颈，

但是对于目前的视频实时分析系统这个带宽是足够使用的。

c. SM(流处理器组的个数)

每一个SM共用一组控制晶体管，暨该SM内所有流处理器的共用一组控制晶体管。

反映了GPU的多数据多指令能力。

Gtx760为5 gtx960为8 实测gtx960多路处理能力强于gtx760

d. 传输延时

数据从内存拷贝到显存所需要的时间。

这个从软件（Streams and Concurrency）层面可以减少延时对系统的影响。在软件层面部分做具体分析。

2. 软件层面

a. 编程API的选择¹。

Cpu程序开发：机器语言；汇编语言；针对硬件优化库的API（如ipp）；通用C、c++；

GPU程序开发：机器语言；驱动API ；运行时API ；封装好的优化库（npp）

越高级的API开发周期越短，但灵活性越差

用npp升级我们VA算法模块，目前只需要将相应的ipp函数替换为npp函数即可。有些ipp函数npp没有对应的实现可以利用驱动

API或者运行时API封装一个kernel函数。

b. Cuda一些特性的应用

（1） Stream的使用²

使用stream，可以从软件层面遮盖传输时延。

暨在gpu在执行计算的时候，可以同时进行数据传输，这样可以保证gpu不会因为等待数据而导致利用率的下降，从而影响系统分析实时性。图例如下：

HD表示 host –> device 主机内存到显存的数据拷贝

DH表示 device à host 显存数据到内存的数据拷贝

K 表示 kernel函数 gpu在执行计算，上述图表是Nsight的timeline

（2）页锁定主机内存⁴

页锁定主机内存，操作系统不会对这块内存进行分页，并交换到磁盘。该内存会一直驻留物理内存中

GPU知道了该内存的物理地址可以利用DMA（direct memory access）控制器和主机内存复制

页锁定主机内存比可分页内存性能高2倍左右

（3） Hper-Q³

NVIDIA在开普勒架构后开始支持Hper-Q， Hper-Q支持不同流之间kernel的并发。

Gtx960支持8个stream kernel并发。

c.异构并发

主机和设备之间可以并发执行。

下面是两种pipleline的比较

同步执行：

分析一帧耗时为 T = t_g + t_c；

异步并发：

分析一帧耗时为 T = Max（ t_g ， t_c）

参考资料：

1 cuda应用设计与开发：方法与最佳实践。

2 INVIDA 技术开发文档：CUDA C/C++ Streams and Concurrency

3 INVIDA 技术开发文档：Hyper-Q Example

4 Cuda by example

利用GPU改善程序性能的一点心得的更多相关文章

[.net 面向对象程序设计进阶] (18) 多线程(Multithreading)(三) 利用多线程提高程序性能（下）
[.net 面向对象程序设计进阶] (18) 多线程(Multithreading)(二) 利用多线程提高程序性能(下) 本节导读: 上节说了线程同步中使用线程锁和线程通知的方式来处理资源共享问题,这 ...
[.net 面向对象程序设计进阶] (17) 多线程(Multithreading)(二) 利用多线程提高程序性能（中）
[.net 面向对象程序设计进阶] (17) 多线程(Multithreading)(二) 利用多线程提高程序性能(中) 本节要点: 上节介绍了多线程的基本使用方法和基本应用示例,本节深入介绍.NET ...
[.net 面向对象程序设计进阶] (16) 多线程(Multithreading)(一) 利用多线程提高程序性能（上）
[.net 面向对象程序设计进阶] (16) 多线程(Multithreading)(一) 利用多线程提高程序性能(上) 本节导读: 随着硬件和网络的高速发展,为多线程(Multithreading) ...
[.net 面向对象程序设计进阶] (15) 缓存(Cache)(二) 利用缓存提升程序性能
[.net 面向对象程序设计进阶] (15) 缓存(Cache)(二) 利用缓存提升程序性能本节导读: 上节说了缓存是以空间来换取时间的技术,介绍了客户端缓存和两种常用服务器缓布,本节主要介绍一种. ...
.net改善程序性能建议
对改善程序性能的建议. 文章:https://msdn.microsoft.com/zh-cn/library/ms973838.aspx
使用tornado的gen模块改善程序性能
之前在公司的一个模块,需要从另一处url取得数据,我使用了Python的一个很著名的lib,叫做requests.但是这样做极大的降低了程序的性能,因为tornado是单线程的,它使用了所谓的reac ...
Matlab优化存储器读写来改善程序性能
最近用Matlab写程序的时候终于遇到了程序执行效率的问题,于是在Google上面搜索了一篇提高代码性能的文章,简单的概括一下. 文章是通过优化寄存器读写来提高执行速度的,主要体现在三个方面: 在做循 ...
Web标准中用于改善Web应用程序性能的各种方法总结
提起Web应用程序中的性能改善,广大开发者们可能会想到JavaScript与DOM访问等基于各种既存技术的性能改善方法.最近,各种性能改善方法被汇总成为一个Web标准. 本文对Web标准中所包含的各种 ...
跨多种环境部署 Gearman -改善应用程序性能和降低服务器负载
您可能想要将工作扩散到一个大型机器群体中,或者想要在不同语言和环境之间共享功能,那么开放源码的 Gearman 服务可以让您轻松地将工作分布到网络中的其他机器.本文将介绍 Gearman 的一些典型应 ...

随机推荐

CentOS查看分区的方式
看ls /dev然后挂载 df -T 只可以查看已经挂载的分区和文件系统类型 fdisk -l 可以显示出所有挂载和未挂载的分区,但不显示文件系统类型 parted -l 可以查看未挂载的文件系统类 ...
juqery的一些简单用法
层级选择器(重点).基本过滤选择器 :eq(index) 选择匹配到的元素中索引号为index的一个元素,index从0开始 :odd 选择匹配到的元素中索引号为奇数的所有元素,index从0开始 : ...
Java GUI编程中AWT/swing/SWT的优缺点
http://www.cnblogs.com/dugang/archive/2010/10/22/1858478.html AWT AWT是Abstract Window Toolkit(抽象窗口工具 ...
bind出现Address already in use解决方法
在socket函数和bind函数之间加入一段代码: // 建立服务器端socket if((server_sockfd = socket(AF_INET, SOCK_STREAM, 0))<0) ...
Activiti工作流笔记（4）
Activiti工作流启动流程 /** * 启动流程 * */ public class ActivitiTest2 { RepositoryService repositoryService; Ru ...
Thinking in Java 之classpath理解
等待写: <Thinking in Java> page127
Fedora 安装与常用命令
fedora下载地址: https://getfedora.org/ 原来装的26,现在装27 用的是server版网络安装500多M 现在都是U盘安装了,fedora的写优盘说明 https://f ...
2.4 C++成员选择符
参考:http://www.weixueyuan.net/view/6336.html 总结: 访问可以通过成员选择符“.”或指针操作符“->”来完成. 通过上一节的学习我们看到:通过对象可以访 ...
python 元组（tuple）
面试python我想每个人都会被问一个问题,就是python中的list和tuple有什么区别? 一般情况下,我会回答,list元素可变,tuple元素不可变(书上或者其他的博客都是这么写的),一般情 ...
logback转义符与MDC
关于MDC的使用,可以结合filter一块使用,将需要串联的上下文的关键信息,通过header进行传递,然后通过配置%X{userId}将信息打印出来. MDC.put("userId&qu ...

利用GPU改善程序性能的一点心得

利用GPU改善程序性能的一点心得的更多相关文章

随机推荐

热门专题