CUDA编程学习笔记2

第二章

cuda代码写在.cu/.cuh里面

cuda 7.0 / 9.0开始,NVCC就支持c++11 / 14里面绝大部分的语言特性了.

Dim3

__host__ __device__ dim3(unsigned int vx = 1, unsigned int vy = 1, unsigned int vz = 1) : x(vx), y(vy), z(vz) {}

__host__ __device__ dim3(uint3 v): x(v.x), y(v.y), z(v.z) {}

Single Instruction, Multiple Data (SIMD)

用SIMD也不是一直是好的.

Streaming Multiprocessor (SM)一般每个有128个single precision CUDA cores(也就是一个线程)和对应的cache.

Block会被分成Warps, Warp是32个线程的集合(都在一个block里面).所有的32线程必须都跑同一组命令集.

一个SM里的Warps是同时跑的.

如果你想用一个Warp做不同的事儿,会按顺序做,也叫Warp Divergence.

Device Memory 也叫 Global Memory, 也就是GPU的RAM.从Device Memory拿比从真的RAM快.

Global Memory也没那么快,是很多GPU程序的bottleneck.

第三章

第四章

Latency: 硬件导致的延迟

Thoughput: 吞吐量

CPU: 低延迟, 低吞吐量
- CPU clock: 3GHz
- main Memory latency: ~ 100+ns
- arithmetic instruction latency: ~1+ns
GPU:高延迟,高吞吐量
- 1GHz
- 300+ns
- 10+ns

GPU非常的IOlimited,所以对与IO要谨慎处理.

Registers:最快的,只有线程才能用,生命周期和线程一样.
Local Memory: 150倍慢(比register和shared memory来说).
shared memory:当没有bank conflicts或者从同一个地址读的时候,可以和register一样快. 对于一个block里面的所有线程都可见.和block一样的生命周期.
global memory: 150倍慢(比register和shared memory)

global memory和GPU核不在一块.

有最大的容量
GPU有.5到24GB的global memory,一般是~2GB.
延迟大概是~300ns 在kepler上.

shared memory

在SM上灰常快的memory
和L1 cache是一样的
~5ns的延迟
最大大约~48KB

shared memory语法

可以静态的分配shared memory,或者动态的分配

static allocation

__shared__ float data[1024]

在kernel里面声明
dynamic allocation syntax

Host:

kernel<<<grid_dim, block_dim, numByteShMem>>>(args);

Device:

extern shared float s[];

还有些别的..

一个常见的pattern

Bank conflicts

任何序列的GPU变成都会对于导致表现下降.

Registers

大概比shared memory快10x.

每一个SM里大概有1万个registers.

一般kernel里声明的stack变量就是存储在registers.

Local Memory

是任何在stack上不能塞进register里的东西.

local memory只能给thread用.

L1 Cache

每一个SM有它自己的L1 Cache.

L2 Cache

被所有的SM共享

L3 Cache

比L2慢点但也大.

Constant Memory Constant Cache

In host code:

cudaMemcpyToSymbol(foo, h_src, sizeof(int)*1024);

Texture Memory

这个东西非常复杂,而且对于一般的计算来说只是有点用.

有用的特性:

(没看懂) 2D or 3D data locality for caching purposes through "CUDA arrays". Goes into special texture cache.
在一维/二维/三维的array插值快.
把int型转化为统一的("unitized")浮点数.

常用的场景:

用texture cache和cuda array来读输入数据,来利用空间缓存(spatial caching).
利用numerical texture capabilities.
和OpenGL以及一般的computer graphics交互.

CUDA编程学习笔记2的更多相关文章

CUDA编程学习笔记1
CUDA编程模型是一个异构模型,需要CPU和GPU协同工作. host和device host和device是两个重要的概念 host指代CPU及其内存 device指代GPU及其内存 __globa ...
JAVA GUI编程学习笔记目录
2014年暑假JAVA GUI编程学习笔记目录 1.JAVA之GUI编程概述 2.JAVA之GUI编程布局 3.JAVA之GUI编程Frame窗口 4.JAVA之GUI编程事件监听机制 5.JAVA之 ...
Linux Shell编程学习笔记——目录（附笔记资源下载)
LinuxShell编程学习笔记目录附笔记资源下载目录(?)[-] 写在前面第一部分 Shell基础编程第二部分 Linux Shell高级编程技巧资源下载写在前面最近花了些时间学习She ...
DirectX 11游戏编程学习笔记之8: 第6章Drawing in Direct3D(在Direct3D中绘制)(习题解答)
本文由哈利_蜘蛛侠原创,转载请注明出处.有问题欢迎联系2024958085@qq.com 注:我给的电子版是700多页,而实体书是800多页,所以我在提到相关概念的时候 ...
多线程编程学习笔记——async和await（一）
接上文多线程编程学习笔记——任务并行库(一) 接上文多线程编程学习笔记——任务并行库(二) 接上文多线程编程学习笔记——任务并行库(三) 接上文多线程编程学习笔记——任务并行库(四) 通过前面 ...
多线程编程学习笔记——async和await（二）
接上文多线程编程学习笔记——async和await(一) 三. 对连续的异步任务使用await操作符本示例学习如何阅读有多个await方法方法时,程序的实际流程是怎么样的,理解await的异步 ...
多线程编程学习笔记——async和await（三）
接上文多线程编程学习笔记——async和await(一) 接上文多线程编程学习笔记——async和await(二) 五. 处理异步操作中的异常本示例学习如何在异步函数中处理异常,学习如何对多 ...
多线程编程学习笔记——使用异步IO（一）
接上文多线程编程学习笔记——使用并发集合(一) 接上文多线程编程学习笔记——使用并发集合(二) 接上文多线程编程学习笔记——使用并发集合(三) 假设以下场景,如果在客户端运行程序,最的事情之一是 ...
多线程编程学习笔记——编写一个异步的HTTP服务器和客户端
接上文多线程编程学习笔记——使用异步IO 二. 编写一个异步的HTTP服务器和客户端本节展示了如何编写一个简单的异步HTTP服务器. 1.程序代码如下. using System; using ...

随机推荐

Linux ADF(Atomic Display Framework)浅析---概述
概述因为工作关系,最近有涉及到ADF(Atomic Display Framework)相关的内容,部分内容来自互联网 ADF(Atomic Display Framework)是Google新增的 ...
nltk处理文本
nltk(Natural Language Toolkit)是处理文本的利器. 安装 pip install nltk 进入python命令行,键入nltk.download()可以下载nltk需要的 ...
QToolBar也是QWidget，可以放在QWidget的中间
可以试着把左边做成一个widget.从上到下依次为:QTextEditQToolBarQTextEdit然后再对她们进行垂直布局(布局是具体需求而定).代码大致如下: TCenterWidget::T ...
MySQL 主从配置读写分离
Master配置 1.创建用户: 在Master MySQL上创建一个用户‘repl’,并允许其他Slave服务器可以通过远程访问Master,通过该用户读取二进制日志,实现数据同步. create ...
谷歌推出全新Android开发语言Sky：让App更流畅
土豆网同步更新:http://www.tudou.com/plcover/VHNh6ZopQ4E/ 使用HTML 创建Mac OS App 视频教程. 官方QQ群: (1)App实践出真知 434 ...
为什么使用剪切板时都用GlobalAlloc分配内存（历史遗留问题，其实没关系了）
我在使用剪切板时,发现通用的都是使用GlobalAlloc来分配内存,我就想不是说在Win32中GlobalAlloc和LocalAlloc是一样的那为什么不用LocalAlloc呢,原谅我的好奇心吧 ...
AnmpServer 0.9.3 发布
摘要: AnmpServer是一款集成Apache服务器.Nginx服务器.MySQL数据库.PHP解释器的整合软件包.免去了开发人员将时间花费在繁琐的配置环境过程,从而腾出更多精力去做开发,助力PH ...
CentOS 7 时间同步方法
centos 7 时间同步使用的是chrony工具 1.检测chrony包是否安装 [root@martin ~]# rpm -qa|grep chrony 2.安装chrony [root@mart ...
Zookeeper详解-API（六）
ZooKeeper有一个绑定Java和C的官方API.Zookeeper社区为大多数语言(.NET,python等)提供非官方API.使用ZooKeeper API,应用程序可以连接,交互,操作数据, ...
设计模式之策略模式和状态模式（strategy pattern & state pattern）
本文来讲解一下两个结构比较相似的行为设计模式:策略模式和状态模式.两者单独的理解和学习都是比较直观简单的,但是实际使用的时候却并不好实践,算是易学难用的设计模式吧.这也是把两者放在一起介绍的原因,经过 ...

CUDA编程学习笔记2

第二章

第三章

第四章

CUDA编程学习笔记2的更多相关文章

随机推荐

热门专题