线程的索引计算

只需要知并行线程的初始索引，以及如何确定递增的量值，我们希望每个并行线程从不同的索引开始，因此就需要对线程索引和线程块索引进行线性化，每个线程的其实索引按照以下公式来计算：

int tid = threadIdx.x + blockIdx.x * blockDim.x;

线程块数量限制：65536

线程块中线程数量限制：512

共享内存和同步

共享内存

__share__添加到变量声明,使得声明的变量驻留在共享内存中。cuda c编译器对共享内存中的变量和普通变量采用不同的处理策略，对于GPU启动的每个线程块，cuda c都将创建该变量的一个副本。线程块中的所有线程都会共享这块内存。但线程却无法看到也不能修改其他线程块的变量副本。这是同一个线程块中的不同线程进行通信和协作的基础。

共享内存缓冲区驻留在物理gpu上，访问时延极低。

同步

__syncthreads();对线程块中的线程进行同步。线程发散的容易出现，使得部分场景下的线程同步很有必要。

线程发散：当某些线程需要执行一些指令，而其他线程不需要执行时，这种情况叫做线程发散。在正常环境中，发散的分支会使得某些线程处于空闲状态，而其他线程将执行线程中的代码。在__syncthreads()情况中，线程发散造成的结果有些糟糕，cuda架构将确保，除非线程块中所有的线程都执行了同步操作，否则没有任何线程可以执行同步操作之后的指令。

常量内存与事件

常量内存：NVIDIA提供64k的常量内存，有效减少内存宽带。__constant__ 将变量的访问限制为只读。

从主机内存复制到GPU上的常量内存，使用方法cudaMemcpyToSymbol()进行复制。

性能提升原因

（1）对常量内存的单次操作可以广播到其他邻近线程，节约15次的读写操作；

当处理常量内存时，NVIDIA硬件将单次内存读取操作广播到每个半线程束。

（2）常量内存的数据将缓存起来，因此对相同地址的连续访问不会产生额外的内存通信量。

线程束：warp

在cuda架构中，线程束指的是一个包含32个线程的集合，这些个线程被编制在一起，并且以步调一致（LockStep）的形式执行，在程序中的每一行，线程束中的每个线程都将在不同的数据上执行相同的命令。

事件API

cuda的事件本质上其实就是一个时间戳，这个时间戳就是在用户指定的时间上记录的。获得一个时间戳只有两个步骤：创建一个事件，记录一个事件。

cudaEvent_t start, stop;

cudaEventCreate(&start);

cudaEventCreate(&stop);

cudaEventRecord(start, 0);

// gpu执行操作

...

cudaEventRecord(stop, 0);

cudaEventSynchronize(stop);

cudaEventDestroy(start);

cudaEventDestroy(stop);

文理内存（Texture Memory）

简介：

与常量内存类似，只读，缓存在芯片上，减少对内存的请求，并提供更高效的内存带宽。专门为在内存访问模式中存在大量空间局部性（special locality）的图形应用程序而设计。在某个计算应用程序中，这意味着一个线程读取的位置可能与邻近线程读取的位置非常接近。纹理内存专门为加速这种内存访问模式。

纹理存储器中的数据是以一维、二维或者三维数组的形式存储在显存中，可以通过缓存加速访问，并且可以声明大小比常量存储器要大得多。在kernel中访问纹理存储器的操作称为纹理拾取。将显存中的数据和纹理参考系关联的操作，称为将数据和纹理绑定。显存中可以绑定到纹理的数据有两种，分别是普通的线性存储器和cuda数组。

使用步骤：

（1）需要将输入的数据声明为texture类型的引用；声明变量在gpu上；

（2） gpu中分配内存，通过cudaBindTexture()将变量绑定到内存缓冲区。告诉cuda运行时两件事情：

我们希望将指定的缓冲区作为纹理来使用；
我们希望将纹理引用作为纹理的“名字”。

（3）启动核函数，读取核函数中的纹理时，需要通过特殊的函数来告诉GPU将读取请求转发到纹理内存而不是标准的全局内存，使用编译器内置函数：tex1Dfetch();

（4）释放缓冲区，清除与纹理的绑定，cudaUnbindTexture();

流

页锁定内存

页锁定主机内存，固定内存，不可分页内存，OS将不会对这块内存分页并且交换到磁盘上。从而确保该内存始终驻留在物理内存中。OS可以安全的使某个应用程序访问该内存的物理地址，这块内存将不会被破坏或者重新定位。

malloc分配的是标准的、可分页的主机内存；
cudaHostAlloc将分配页锁定的主机内存。

建议：仅对cudaMemcpy（）调用的源内存或者目标内存，才能使用页锁定内存，并且在不需要使用他们时，立即释放。

流

支持设备重叠功能的设备，支持设备重叠功能的GPU能够在执行一个CUDA C核函数的同时，还能在设备和主机之间进行复制操作。

一些新的GPU设备同时支持核函数和两次的复制操作，一次是从主机到设备，一次是从设备到主机。在任何支持内存复制和核函数的执行相互重叠的设备上，当使用多个流时，应用程序的整体性能都能得到提升。

判断设备是否支持计算与内存复制操作的重叠：

int main( void ) {

	cudaDeviceProp prop;

	int whichDevice;

	HANDLE_ERROR( cudaGetDevice(&whichDevice) );

	HANDLE_ERROR( cudaGetDeviceProperties(&prop, whichDevice) );

	if(!prop.deviceOverlap) {

      	printf("Device will not handle overlaps");

      	return 0;

	}

}

多GPU系统上的CUDA C

零拷贝内存：可以在cuda C核函数中，直接访问这种类型的主机内存，由于这种内存不需要复制到GPU，因此称为零拷贝内存。通过cudaHostAlloc进行分配，最后一个参数采用：cudaHostAllocMapped.

判断设备是否支持映射主机内存：

int main( void ) {

	cudaDeviceProp prop;

	int whichDevice;

	HANDLE_ERROR( cudaGetDevice(&whichDevice) );

	HANDLE_ERROR( cudaGetDeviceProperties(&prop, whichDevice) );

	if(prop.canMapHostMemory != 1) {

      	printf("Device can not map memory");

      	return 0;

	}

}

当输入内存和输出内存都只是用一次时，那么在独立GPU上使用零拷贝内存将带来性能提升。

判断某个GPU时集成的还是独立：

cudaGetDeviceProperties()获取属性结构体，该结构中的域：integrated，如果是设备是集成GPU，该值为true，否则为false。

注意：多GPU场景下，每个gpu如果都要运行gpu程序的话，都需要主机cpu启动单独的线程进行资源控制，都有对应自己的线程。

《Programming Massively Parallel Processors: a Hands-On Approach》

Cuda常用概念及注意点的更多相关文章

【PS技巧】常用概念和功能操作
常用概念 1.画布大小与图像大小画布大小是图像背景的大小,即画纸.图像大小是当前编辑的图层的所有对象大小,即画纸上的画. 常用功能操作 1.打开和新建功能打开图片:Ctrl+O或双击工作区图片垂 ...
Python--多线程、多进程常用概念
一.常用概念进程进程就是一个程序在一个数据集上的一次动态执行过程.进程一般由程序.数据集.进程控制块三部分组成. 线程线程的出现是为了降低上下文切换的消耗,提高系统的并发性,并突破一个进程只能干 ...
NetApp 存储的常用概念普及
NetApp 存储的常用概念和命令1． Volume 和qtree卷(volume)是filer 上的一个基本空间单位,它可以是基于aggr划出的灵活卷(flexvol),也可以是直接由物理盘组成的传 ...
007-elasticsearch5.4.3【一】概述、Elasticsearch 访问方式、Elasticsearch 面向文档、常用概念
一.概述 Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上. Elasticsearch 也是使用 Java 编写的,它的内部使用 L ...
Solr入门之（3）常用概念说明（持续补充）：
由于solr底层使用lucene,所以很多概念与lucene相同,下面是几个常用的概念: * Document:一个要进行索引的单元,相当于数据库的一行纪录,任何想要被索引的数据,都必须转化为Docu ...
NSIS打包（一）常用概念简介
1.NSIS简介官网:http://sourceforge.net/projects/nsis/ 维基百科: http://zh.wikipedia.org/wiki/Nullsoft%E8%85% ...
python的常用概念
常用的概念主体字符串主体列表内置函数和方法的区别映射表引用迭代器: 1. 字典:单步遍历迭代器 2. 文件:逐行读取的迭代器
CUDA基本概念
CUDA计算模型 CUDA中计算分为两部分,串行部分在Host上执行,即CPU,而并行部分在Device上执行,即GPU. 相比传统的C语言,CUDA增加了一些扩展,包括了库和关键字. CUDA代码提 ...
G-sensor概述及常用概念整理【转】
本文转载自:http://www.jianshu.com/p/d471958189a0?nomobile=yesG 本文对G-sensor进行整理,先介绍G-sensor的一些基本概念,再具体讲解BO ...

随机推荐

Activity的常用控件
TimerPick(时间控件)public Integer getCurrentHour() //返回当前设置的小时public Integer getCurrentMinute()//返回当前设置的 ...
SpringBoot-06-模板引擎Thymeleaf
6. 模板引擎 Thymeleaf Thyme leaf 英译为百里香的叶子. 模板引擎以前开发中使用的jsp就是一个模板引擎,但是springboot 以jar的方式,并且使用嵌入式的tom ...
CDH5部署三部曲之一：准备工作
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
多测师讲解python _函数中变量_高级讲师肖sir
定义的函数内部的变量名如果是第一次出现, 且在=符号前,那么就可以认为是被定义为局部变量.在这种情况下,不论全局变量中是否用到该变量名,函数中使用的都是局部变量.例如: num=100 #全局变量 ...
spring-boot-route（十六）使用logback生产日志文件
日志是一个系统非常重要的一部分,我们经常需要通过查看日志来定位问题,今天我们一起来学习一下Spring Boot的日志系统.有很多同学习惯性的在生产代码中使用System.out来输出日志,这是不推荐 ...
MeteoInfoLab脚本示例：Hamawari-8 netCDF data
示例数据:ftp://ftp.bom.gov.au/anon/sample/catalogue/Satellite/IDE00220.201507140300.nc 该数据的分辨率很高(22000*2 ...
MeteoInfoLab脚本示例：格点数据散点图
绘制格点数据的散点图,用scaterm函数. 脚本程序: f = addfile('D:/Temp/GrADS/model.ctl') ps = f['PS'][0,(10,60),(60,140)] ...
day07 Pyhton学习
一.昨日内容回顾小数据池,常量池 id()内存地址 is == 的区别 is 判断的是内存地址 == 判断的是值存在的意义: 快速的创建字符串,整数,布尔值的对象帮你节省内存解码和编码 enc ...
【换根DP】小奇的仓库
题目背景小奇采的矿实在太多了,它准备在喵星系建个矿石仓库.令它无语的是,喵星系的货运飞船引擎还停留在上元时代! 题目内容喵星系有\(n\)个星球,星球以及星球间的航线形成一棵树. 从星球\(a\) ...
redis6安装 centos系统
Redis6 安装在centos7.5服务器上按照官方发布的安装方式并不能进行正确的安装,现收集并整理如下安装方式,亲测有效 1.安装依赖 yum install -y cpp binutils ...

Cuda常用概念及注意点