CUDA C
一、CUDA结构
硬件:GPU(Graphics Processing Unit) SM(Streaming Multiprocessor) SP(Streaming Processor)
软件:Grid Blcok Thread
每个GPU由若干SM组成,每个SM由若干SP加上Register和shared memory组成,SP是真正执行线程的单元,这是GPU的硬件架构。
CUDA提供GBT逻辑结构,大致对应GSM
除此之外,GPU的调度单位是warp,基本上是32个Thread组成一个warp,由warp scheduler进行调度, 每个warp内的线程SIMT(Single Instruction Multi Thread)
二、CUDA基本语法
__global__ 声明一个kernel函数 , <<<block, thread>>> 调用kernel函数, block,thread可以是二维的(用dim3传入, dim3的结构为dim3(x, y, z))
—divece__ 声明一个函数,表示是在kernel中调用的
cudaMalloc(pointer, size);
cudaMemcpy(dest, src, size, direction)
cudaFree()
cudaDevicePro结构体
并形编程时offset的计算,一维二维不同
** 显存和主存的指针可以相互传递,但显存的读写只能在GPU上操作,内存的读写只能在CPU上操作,即设备上不能读写主存,CPU上不能读写设备内存 **
cudaSetDevice(i)有多个GPU时,选择一个i
cuda的好多函数都会返回一个cudaError_t类型的状态,如果是cudaSuccess,表示成功执行
注意:在执行了kernel函数后没有任何反应记得在kernel函数后添加cudaDeviceReset()指令,注意该指令必须要在kernel函数后,且在把设备内存中的内容复制到主存后。
三、cuda线程同步
__syncthreads()同步一个block内的线程,使block内的所有线程的__syncthreads()前面的代码全部运行完毕,才运行后面的代码,注意该同步指令不能放入分支结构中,否则会死锁永久等待。
注意:__syncthreads()只能同步一个block内的线程,无法同步block间的线程。
四、优化性能
__shared__ 声明shared memory, 每个block 共享shared memory,可读可写,芯片内部内存,相当于高速缓存。
__constant__ 声明constant memory,一般GPU会将显存分出64KB的constant memory,read-only,合理的使用constant memory有助于提高CUDA程序性能
注意:constant memory 只能静态分配,无需释放,其大小要在编译的时候确定, 并且要声明为全局。
原因:广播,half-warp thread 读同一个constant memory地址的时,只产生一次读操作 ,这样只占1/16的带宽(注意这个提升很大,因为GPU内部的处理单元很多,内存带宽已满足不了运算能力,the bottleneck is bandwidth)
cache,第一次读后,硬件会cache the constant data to GPU
duoble-edged sword:half-warp thread 都读一个constant memory,好剑,但若不同,则这16条thread读constant memory 将串行化,如果在global memory中即使不同也是并行的。
注意:用这个cudaMemcpyToSymbol(dist, src, size)拷贝constant memory
纹理内存,同常量内存有点像。
五、cuda事件
cudaEvent_t start, stop;
cudaEventCreate(&start); cudaEventCreate(&stop);
cudaEventRecord(start, 0); cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float elapseTime;
cudaEventElapsedTime(&elapseTime, start, stop);
cudaEventDestroy(start); cudaEventDestroy(stop);
注意:cudaEvent is implemented directly on the GPU, it is not suitable to timing mixtures of divece and host code.
六、原子性
atomicAdd(&, value);
由于计算机中不满足浮点数加减法的结合率,故只提供了整数的atomicAdd()原子操作。但可以利用提供的对于整数的原子操作自己实现一个互斥锁,来实现临界资源的互斥访问。
struct Lock {
int *mutex;
Lock( void ) {
HANDLE_ERROR( cudaMalloc( (void**)&mutex,
sizeof(int) ) );
HANDLE_ERROR( cudaMemset( mutex, , sizeof(int) ) );
}
~Lock( void ) {
cudaFree( mutex );
}
__device__ void lock( void ) {
while( atomicCAS( mutex, , ) != );
__threadfence();
}
__device__ void unlock( void ) {
__threadfence();
atomicExch( mutex, );
}
};
【不确定】该互斥好像只能在块间有效执行,在块内线程之间就不行了。
七、流
前面的讨论的并行是相同任务不同数据的并行,流是不同任务间的并行(类似于CPU)
1、页锁定主机内存
cudaHostAlloc((void**)&add, ByteSize, cudaHostAllocDefault)分配固定内存,即不可分页,不可交换至磁盘(在释放之前),不可被其他程序占用
malloc(ByteSize)分配标准的可分页内存,可交换、可被占用
采用cudaHostAlloc分配的内存需要用cudaHostFree(add)释放,但还是可以用cudaMemcpy(),并且速度比用malloc()快
使用页锁定内存的一个好处:
- 加快主机内存和设备内存间的复制操作。由于设备内存和主机内存之间的交换用DMA来完成,不需要CPU的参与,故当使用可分页内存时,由于可能存在某页被换到磁盘中延缓DMA控制器的操作,故对于分页内存与设备内存交换时,系统先是申请了一块页锁定内存,先将内容拷贝进来,再将其与设备内存进行交换。即:可分页内存<->页锁定内存<->设备内存
2、流
创建流
cudaStream_t stream;
cudaStreamCreate(&stream);
流就好比一个任务对列,每个流中的任务串行执行,不同的流之间可以并行执行,但并不能全部并行,只能在内存拷贝和执行核函数上面并行
cudaMemcpyAsync(dest, src, size, direction, stream) 不同于cudaMemcpy和memcpy,后面两个是同步的,即函数执行完了,内存拷贝也就完成了,前者是一个异步方式,只是在流中提出了一个请求,并不一定完成了。
kernel<<<block, thread, 0, stream>>>()核函数也要指定相应的流变成异步执行,第三个暂时未知
所以最后需要一个同步机制来等待流中的任务完成cudaStreamSynchronize(stream)
最后释放流cudaStreamDestroy(stream)
使用页锁定内存的另一个好处:
- 异步
下面给个两个流的并行过程:
流1:HostToDevice kernel DeviceToHost
流2: HostToDevice kernel DeviceToHost
八、动态并行
前面讨论的并行是在主机函数调用kernel函数,但在kernel函数中能否继续调用kernel,cuda从某一版本开始后开始支持这一机制,称为动态并行。
九、注意点
- 在GPU中相邻线程访问相邻内存要比同一线程访问相邻内存的速度快。
参考:《cuda by exemple》
CUDA C的更多相关文章
- CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
- CUDA[1] Introductory
Section 0 :Induction of CUDA CUDA是啥?CUDA®: A General-Purpose Parallel Computing Platform and Program ...
- Couldn't open CUDA library cublas64_80.dll etc. tensorflow-gpu on windows
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\dso_load ...
- ubuntu 16.04 + N驱动安装 +CUDA+Qt5 + opencv
Nvidia driver installation(after download XX.run installation file) 1. ctrl+Alt+F1 //go to virtual ...
- 手把手教你搭建深度学习平台——避坑安装theano+CUDA
python有多混乱我就不多说了.这个混论不仅是指整个python市场混乱,更混乱的还有python的各种附加依赖包.为了一劳永逸解决python的各种依赖包对深度学习造成的影响,本文中采用pytho ...
- [CUDA] CUDA to DL
又是一枚祖国的骚年,阅览做做笔记:http://www.cnblogs.com/neopenx/p/4643705.html 这里只是一些基础知识.帮助理解DL tool的实现. “这也是深度学习带来 ...
- 基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记
基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记 飞翔的蜘蛛人 注1:本人新手,文章中不准确的地方,欢迎批评指正 注2:知识储备应达到Linux入门级水平 ...
- CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...
- 使用 CUDA范例精解通用GPU编程 配套程序的方法
用vs新建一个cuda的项目,然后将系统自动生成的那个.cu里头的内容,除了头文件引用外,全部替代成先有代码的内容. 然后程序就能跑了. 因为新建的是cuda的项目,所以所有的头文件和库的引用系统都会 ...
- CUDA代码移植
如果CUDA的代码移植,一个是要 include文件夹对不对,这个是.h文件能否找到的关键,另一个就是lib,这个是.lib文件能否找到的关键.具体检查地方,见下头. include: lib:
随机推荐
- 45_redux_comment应用_redux版本_异步功能
/* * 包含所有action的type名称常量 * */ //添加评论 export const ADD_COMMENT = 'add_comment'; //删除评论 export const D ...
- linux系统下常用的命令(吐血自己整理,且用且珍惜)
1)linux命令太多,有时候记不起来是哪个,为了方便大家查询,自己吐血整理了以下这些,转载时请标明出处,珍惜原创成果 吐血自己整理,且用且珍惜) 吐血自己整理,且用且珍惜) 吐血自己整理,且用且珍惜 ...
- JSP 有些类can not be resolved
看了网上的帖子,切换了jdk到低版本,发现还是不能解决问题. 发现出现问题的代码在tomcat下的Lib包中的其中一个包,jasper.jar 我在想是不是tomcat的版本问题,拷贝了其他地方的ja ...
- 两个对象的 hashCode()或equals相同,equals或hashCode不一定相同--《案例演示》
两个对象的 hashCode()或equals相同,equals或hashCode不一定相同 1.两个对象的equals相同,hashCode不一定相同 在重写equals方法,未重写hashCode ...
- Python-基础函数与常用模块考核
第二模块考核(2019/ 03/ 03) ### 第一模块内容1.请写出 “路飞学城alex” 分别用utf - 8和gbk编码所占的位数(口述) ➜ ~ python3 >>> b ...
- Django Cache缓存系统学习--数据库缓存
Django是动态网站,用户每一次请求页面,服务器都会执行以下操作:数据库查询.渲染模版.执行业务逻辑,最后生成用户可查看的页面.当访问量比较大的时候,会消耗掉大量的资源,这时候就会考虑到缓存问题. ...
- python之元组及其方法---整理集
元组: 区别:与列表类似,是对列表的二次加工:用小括号包括起来:元素不可修改:不可增加.删除 技巧:创建元组的时候,一般在最后一个元素后面加一个逗号:为了与方法区分:并且这个逗号不算元素例如: tu= ...
- 大数据实操2 - hadoop集群访问——Hadoop客户端访问、Java API访问
上一篇中介绍了hadoop集群搭建方式,本文介绍集群的访问.集群的访问方式有两种:hadoop客户端访问,Java API访问. 一.集群客户端访问 Hadoop采用C/S架构,可以通过客户端对集群进 ...
- ViewPager中Fragment的重复创建、复用问题
在ViewPager中的Fragment的生命周期 随着页面的切换 当前的展示页相邻的页面生命周期一直在变化 一开始 刚进入Activity时候,ViewPager默认初始化好前两个Fragment ...
- 微信支付遇到的坑---缺少参数total_fee
今天在做微信砍价成功后支付,出现了这个报错 看到报错后,去找total_fee这个参数,调试了半天,total_fee是确定有值的 微信支付的步骤 ① 预支付 商户号,商户秘钥,appid,appse ...