1 GPU是什么

如图1所示，这台PC机与普通PC机不同的是这里插了7张显卡，左下角是显卡，在中间的就是GPU芯片。显卡的处理器称为图形处理器（GPU），它是显卡的“心脏”，与CPU类似，只不过GPU是专为执行复杂的数学和几何计算而设计的。

GPU计算能力非常强悍，举个例子：现在主流的i7处理器的浮点计算能力是主流的英伟达GPU处理器浮点计算能力的1/12。

图1 显卡与GPU

2 为什么GPU计算能力如此强悍？

图2对CPU与GPU中的逻辑架构进行了对比。其中Control是控制器、ALU算术逻辑单元、Cache是cpu内部缓存、DRAM就是内存。可以看到GPU设计者将更多的晶体管用作执行单元，而不是像CPU那样用作复杂的控制单元和缓存。从实际来看，CPU芯片空间的5%是ALU，而GPU空间的40%是ALU。这也是导致GPU计算能力超强的原因。

图2 cpu和gpu硬件逻辑结构对比

那有人讲了，为什么cpu不像gpu那样设计呢，这样计算能力也强悍了！

为什么？CPU要做得很通用。CPU需要同时很好的支持并行和串行操作，需要很强的通用性来处理各种不同的数据类型，同时又要支持复杂通用的逻辑判断，这样会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂，计算单元的比重被降低了。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。因此GPU的芯片比CPU芯片简单很多。

举个例子，假设有一堆相同的加减乘除计算任务需要处理，那把这个任务交给一堆（几十个）小学生就可以了，这里小学生类似于GPU的计算单元，而对一些复杂的逻辑推理等问题，比如公式推导、科技文章写作等高度逻辑化的任务，交给小学生显然不合适，这时大学教授更适合，这里的大学教授就是CPU的计算单元了，大学教授当然能处理加减乘除的问题，单个教授计算加减乘除比单个小学生计算速度更快，但是成本显然高很多。

3 GPU编程库

GPU计算能力这么强，被广泛使用！比如挖矿（比特币）、图形图像处理、数值模拟、机器学习算法训练等等，那我们怎么发挥GPU超强的计算能力呢？---编程！

怎么进行GPU编程呢？现在GPU形形色色，比如Nvidia、AMD、Intel都推出了自己的GPU，其中最为流行的就是Nvidia的GPU，其还推出了CUDA并行编程库。然而每个GPU生产公司都推出自己的编程库显然让学习成本上升很多，因此苹果公司就推出了标准OpenCL，说各个生产商都支持我的标准，只要有一套OpenCL的编程库就能对各类型的GPU芯片适用。当然了，OpenCL做到通用不是没有代价的，会带来一定程度的性能损失，在Nvidia的GPU上，CUDA性能明显比OpenCL高出一大截。目前CUDA和OpenCL是最主流的两个GPU编程库。

从编程语言角度看，CUDA和OpenCL都是原生支持C/C++的，其它语言想要访问还有些麻烦，比如Java，需要通过JNI来访问CUDA或者OpenCL。基于JNI，现今有各种Java版本的GPU编程库，比如JCUDA等。另一种思路就是语言还是由java来编写，通过一种工具将java转换成C。

图3 GPU编程库

LWJGL (http://www.lwjgl.org/)

JOCL (http://www.jocl.org/)

JCUDA (http://www.jcuda.de /)

Aparapi (http://code.google.com/p/aparapi /)

JavaCL (http://code.google.com/p/javacl /）

4 CUDA程序流程

图4 CUDA程序流程

5 实践---以图像处理为例

假设我们有如下图像处理任务，给每个像素值加1。并行方式很简单，为每个像素开一个GPU线程，由其进行加1操作。

图5 例子

图6 核函数

图7 主流程函数

6 GPU加速效果

下图是我实现的基于CUDA的P&D DEM图像预处理算法使用GPU的加速效果，GeForce GT 330是块普通台式机上的显卡，现在价格也就500人民币左右，用它达到了20倍的加速比，Tesla M2075是比较专业的显卡，价格一万左右，用它达到了将近百倍的加速比，这个程序i7 CPU单进程单线程要跑2个小时，而用Tesla M2075 GPU只花了一分多钟就完成计算。

图8 P&D DEM图像预处理算法加速效果

转载请标明源地址：http://www.cnblogs.com/LBSer

【并行计算-CUDA开发】GPU---并行计算利器的更多相关文章

【并行计算-CUDA开发】GPU 的硬体架构
GPU 的硬体架构这里我们会简单介绍,NVIDIA 目前支援CUDA 的GPU,其在执行CUDA 程式的部份(基本上就是其shader 单元)的架构.这里的资料是综合NVIDIA 所公布的资讯, ...
【并行计算-CUDA开发】【视频开发】ffmpeg Nvidia硬件加速总结
2017年5月25日 0. 概述 FFmpeg可通过Nvidia的GPU进行加速,其中高层接口是通过Video Codec SDK来实现GPU资源的调用.Video Codec SDK包含完整的的高性 ...
【并行计算-CUDA开发】CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起
掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系.由于作者能力有限,难免有疏漏,恳请读者批评 ...
【并行计算-CUDA开发】GPU并行编程方法
转载自:http://blog.sina.com.cn/s/blog_a43b3cf2010157ph.html 编写利用GPU加速的并行程序有多种方法,归纳起来有三种: 1. 利用现有的G ...
【并行计算-CUDA开发】浅谈GPU并行计算新趋势
随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染任务,利用GPU完成通用计算的研究逐渐活跃起来,将GPU用于图形渲染以外领域的计算成为GPGPU(General Purpose c ...
【并行计算-CUDA开发】从零开始学习OpenCL开发（一）架构
多谢大家关注转载本文请注明:http://blog.csdn.net/leonwei/article/details/8880012 本文将作为我<从零开始做OpenCL开发>系列文章的 ...
【并行计算-CUDA开发】 NVIDIA Jetson TX1
概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...
【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
【并行计算-CUDA开发】OpenCL、OpenGL和DirectX三者的区别
什么是OpenCL? OpenCL全称Open Computing Language,是第一个面向异构系统通用目的并行编程的开放式.免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器 ...

随机推荐

struts2之多文件上传与拦截器（8）
前台jsp <s:form action="uploadAction" enctype="multipart/form-data" method=&quo ...
Fiddler 显示客户端请求时间，请求耗时，服务器地址
# 效果图打开 CustomRules.js (C:\Users\UsersName\Documents\Fiddler2\Scripts):打开 fiddler 时 windows 快捷键 -&g ...
python镜像
国内镜像列表豆瓣: http://pypi.doubanio.com/simple清华: https://pypi.tuna.tsinghua.edu.cn/simple科大: https://mir ...
Ubuntu本地软件源制作
操作获取需要的deb包 #执行安装后,安装的包会保存在/var/cache/apt/archives 目录下 apt-get install vim #查看正在处理用于 man-db (2.8.7 ...
uint128_t 添加 c++ 重载类型强制转换
类型声明: class uint128 { public: uint128() :hi(), lo(){} uint128(uint32_t l) :hi(), lo(l){} uint128(int ...
Codeforces Round #402 (Div. 2) D题【字符串二分答案+暴力】
D. String Game Little Nastya has a hobby, she likes to remove some letters from word, to obtain anot ...
struts2 404错误
action类必须放在xxxx.xxx.xxx.xxx.action 包下才可以.
[Luogu] 列队
https://www.luogu.org/problemnew/show/P3960 如果 x = 1,相当于维护一条链,每次取出第 k 个数放在序列末尾假设有 n + m + q 个位置,每个位置 ...
初学c++动态联编
先看一下什么是C++联编? 我觉得通俗的讲,用对象来访问类的成员函数就是静态联编. 那什么是动态联编: 一般是通过虚函数实现动态联编. 看一个动态联编的例子: 我比较懒,所以直接粘贴了MOOC视频的图 ...
基于熵的方法计算query与docs相似度
一.简单总结其实相似度计算方法也是老生常谈,比如常用的有: 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA ...

【并行计算-CUDA开发】GPU---并行计算利器