CUDA编程学习笔记2
第二章
cuda代码写在.cu/.cuh里面
cuda 7.0 / 9.0开始,NVCC就支持c++11 / 14里面绝大部分的语言特性了.
Dim3
__host__ __device__ dim3(unsigned int vx = 1, unsigned int vy = 1, unsigned int vz = 1) : x(vx), y(vy), z(vz) {}
__host__ __device__ dim3(uint3 v): x(v.x), y(v.y), z(v.z) {}
Single Instruction, Multiple Data (SIMD)
用SIMD也不是一直是好的.
Streaming Multiprocessor (SM)一般每个有128个single precision CUDA cores(也就是一个线程)和对应的cache.
Block会被分成Warps, Warp是32个线程的集合(都在一个block里面).所有的32线程必须都跑同一组命令集.
一个SM里的Warps是同时跑的.
如果你想用一个Warp做不同的事儿,会按顺序做,也叫Warp Divergence.
Device Memory 也叫 Global Memory, 也就是GPU的RAM.从Device Memory拿比从真的RAM快.
Global Memory也没那么快,是很多GPU程序的bottleneck.
第三章
第四章
Latency: 硬件导致的延迟
Thoughput: 吞吐量
- CPU: 低延迟, 低吞吐量
- CPU clock: 3GHz
- main Memory latency: ~ 100+ns
- arithmetic instruction latency: ~1+ns
- GPU:高延迟,高吞吐量
- 1GHz
- 300+ns
- 10+ns
GPU非常的IOlimited,所以对与IO要谨慎处理.

- Registers:最快的,只有线程才能用,生命周期和线程一样.
- Local Memory: 150倍慢(比register和shared memory来说).
- shared memory:当没有bank conflicts或者从同一个地址读的时候,可以和register一样快. 对于一个block里面的所有线程都可见.和block一样的生命周期.
- global memory: 150倍慢(比register和shared memory)
global memory和GPU核不在一块.
- 有最大的容量
- GPU有.5到24GB的global memory,一般是~2GB.
- 延迟大概是~300ns 在kepler上.
shared memory
- 在SM上灰常快的memory
- 和L1 cache是一样的
- ~5ns的延迟
- 最大大约~48KB
shared memory语法
可以静态的分配shared memory,或者动态的分配
static allocation
__shared__ float data[1024]在kernel里面声明
dynamic allocation syntax
Host:
kernel<<<grid_dim, block_dim, numByteShMem>>>(args);
Device:
extern shared float s[];
还有些别的..
一个常见的pattern

Bank conflicts
任何序列的GPU变成都会对于导致表现下降.
Registers
大概比shared memory快10x.
每一个SM里大概有1万个registers.
一般kernel里声明的stack变量就是存储在registers.
Local Memory
是任何在stack上不能塞进register里的东西.
local memory只能给thread用.
L1 Cache
每一个SM有它自己的L1 Cache.
L2 Cache
被所有的SM共享
L3 Cache
比L2慢点但也大.
Constant Memory Constant Cache
In host code:
cudaMemcpyToSymbol(foo, h_src, sizeof(int)*1024);
Texture Memory
这个东西非常复杂,而且对于一般的计算来说只是有点用.
有用的特性:
- (没看懂) 2D or 3D data locality for caching purposes through "CUDA arrays". Goes into special texture cache.
- 在一维/二维/三维的array插值快.
- 把int型转化为统一的("unitized")浮点数.
常用的场景:
- 用texture cache和cuda array来读输入数据,来利用空间缓存(spatial caching).
- 利用numerical texture capabilities.
- 和OpenGL以及一般的computer graphics交互.
CUDA编程学习笔记2的更多相关文章
- CUDA编程学习笔记1
CUDA编程模型是一个异构模型,需要CPU和GPU协同工作. host和device host和device是两个重要的概念 host指代CPU及其内存 device指代GPU及其内存 __globa ...
- JAVA GUI编程学习笔记目录
2014年暑假JAVA GUI编程学习笔记目录 1.JAVA之GUI编程概述 2.JAVA之GUI编程布局 3.JAVA之GUI编程Frame窗口 4.JAVA之GUI编程事件监听机制 5.JAVA之 ...
- Linux Shell编程学习笔记——目录(附笔记资源下载)
LinuxShell编程学习笔记目录附笔记资源下载 目录(?)[-] 写在前面 第一部分 Shell基础编程 第二部分 Linux Shell高级编程技巧 资源下载 写在前面 最近花了些时间学习She ...
- DirectX 11游戏编程学习笔记之8: 第6章Drawing in Direct3D(在Direct3D中绘制)(习题解答)
本文由哈利_蜘蛛侠原创,转载请注明出处.有问题欢迎联系2024958085@qq.com 注:我给的电子版是700多页,而实体书是800多页,所以我在提到相关概念的时候 ...
- 多线程编程学习笔记——async和await(一)
接上文 多线程编程学习笔记——任务并行库(一) 接上文 多线程编程学习笔记——任务并行库(二) 接上文 多线程编程学习笔记——任务并行库(三) 接上文 多线程编程学习笔记——任务并行库(四) 通过前面 ...
- 多线程编程学习笔记——async和await(二)
接上文 多线程编程学习笔记——async和await(一) 三. 对连续的异步任务使用await操作符 本示例学习如何阅读有多个await方法方法时,程序的实际流程是怎么样的,理解await的异步 ...
- 多线程编程学习笔记——async和await(三)
接上文 多线程编程学习笔记——async和await(一) 接上文 多线程编程学习笔记——async和await(二) 五. 处理异步操作中的异常 本示例学习如何在异步函数中处理异常,学习如何对多 ...
- 多线程编程学习笔记——使用异步IO(一)
接上文 多线程编程学习笔记——使用并发集合(一) 接上文 多线程编程学习笔记——使用并发集合(二) 接上文 多线程编程学习笔记——使用并发集合(三) 假设以下场景,如果在客户端运行程序,最的事情之一是 ...
- 多线程编程学习笔记——编写一个异步的HTTP服务器和客户端
接上文 多线程编程学习笔记——使用异步IO 二. 编写一个异步的HTTP服务器和客户端 本节展示了如何编写一个简单的异步HTTP服务器. 1.程序代码如下. using System; using ...
随机推荐
- Delphi-网络编程-第一个网络方面作品(UDP聊天程序)
其实这不算是一个聊天程序,因为还不能实现双方互发信息,只有一方能发信息,呵呵 我以后再改进吧.... 服务端代码: unit Unit1; interface uses Windows, ...
- 【canvas】基础练习三 图片
[canvas]Demo1 drawImage drawImage(img,x,y); <!DOCTYPE html> <html lang="en"> & ...
- 对Qt for Android的评价(很全面,基本已经没有问题了),可以重用QT积累20年的RTL是好事,QML效率是HTML5的5倍
现在Qt不要光看跨平台了,Qt也有能力和原生应用进行较量的.可以直接去Qt官网查看他和那些厂商合作.关于和Java的比较,框架和Java进行比较似乎不且实际.如果是C++和Java比较,网上有很多文章 ...
- UbuntuServer添加软件源列表
要使用Ubuntu前,我们一般都要先做好工具!特别是对于安装这一块~~~~ 1.配置前,先做个配置文件的备份: $sudo cp /etc/apt/sources.list /etc/apt/sour ...
- Spring Schema扩展机制
1:概述 Spring2.0开始,Spring提供XML Schema可扩展机制,用户可以自定义XML Schema文件,并自定义 XML Bean解析器,集成到Spring IOC容器中. 2:步骤 ...
- 宜信开源|数据库审核软件Themis的规则解析与部署攻略
一.介绍 Themis是宜信公司DBA团队开发的一款数据库审核产品,可帮助DBA.开发人员快速发现数据库质量问题,提升工作效率.其名称源自希腊神话中的正义与法律女神.项目取此名称,寓意此平台对数据库质 ...
- 《阿里巴巴Java开发手册》改名《Java开发手册》,涵盖史无前例的三大升级
2019.06.19 <阿里巴巴Java开发手册>时隔一年,发布更新1.5.0华山版.同时,将更名为<Java开发手册>,涵盖史无前例的三大升级 1)鉴于本手册是社区开发者集体 ...
- C++按格式接收输入字符(京东,滴滴,360笔试必用)
头一次起这种标题,为了对得起这个标题,我尽量多写点~ 最近还是一边实习一遍投简历--笔试--面试,然而发现了自己的好多问题. 在答了京东笔试(滴滴,360也是这样的)的题后,发现与腾讯,阿里等公司的不 ...
- SpringCloud Sleuth入门介绍
案例代码:https://github.com/q279583842q/springcloud-e-book 一.Sleuth介绍 为什么要使用微服务跟踪?它解决了什么问题? 1.微服务的现状? ...
- surging 微服务引擎 2.0 会有多少惊喜?
surging 微服务引擎从2017年6月至今已经有两年的时间,这两年时间有多家公司使用surging 服务引擎,并且有公司搭建了CI/CD,并且使用了k8s 集群,这里我可以说下几家公司的服务搭建情 ...