cuda编程知识普及

本帖经过多方整理，大多来自各路书籍《GPGPU编程技术》《cuda高性能》

1 grid 和 block都可以用三元向量来表示：

　　grid的数组元素是block

　　block的数组元素是grid

但是1.x计算能力的核心，grid的第三元必须为1.block的X和Y索引最大尺寸为512

2 通过__launch_bounds__(maxBlockSize,minBlocksPerMp)来限制每个block中最大的线程数，及每个多处理器上最少被激活的block数

3 SM streaming multiprocessor 多流处理器

SP scalar processor cores 标量处理核心

一个Block中的所有线程在一个多处理器上面并发执行。当这个Block的所有线程执行完后，再激活其他等待的Block.一个多处理器上也可以执行多个block。但是一个block却不能拆分为多个处理器上面执行

对于同一个Block里面的线程：

1 同一个Block里的线程可以被同步

2 可以共同访问多处理器里的共享存储器

到2.x为止，多处理器执行任务时，以32个并行线程为单位，称为一个wrap。

当以个block到来的时候，会被分成线程号连续的多个wrap，然后多处理器上的SIMT控制器以wrap为单位控制调度线程。所以block中的线程数要是以32的整数倍来设计，就不会出现空闲的SP。组织WARP的时候，从线程号最小的开始

4 各个存储器存储位置及作用

5 寄存器放在SP中，如果溢出，会被放在设备处理器上面，发生严重滞后，影响性能。

1.0　　 4KB

2.0　　 16kb

共享存储器位于SM中，大约两个时钟周期读写4B，静态分配 __shared__ int shared[16];

1.0　　 16KB

2.0　　 48kb

6 共享存储器，是以4个字节为单位的16个存储器组

　　bank冲突：半个warp中的多线程访问的数组元素处于同一个bank时，访问串行化，发生冲突

　　避免冲突：最多的数据类型是int、float等占用4个字节的类型

7线程设计

float shared=data[base+tid];

base访问的起始元素下标 tid线程号

如果要是char类型，每个元素占1个字节，就会冲突

float shared = data[base+4*tid];

8 共享存储器广播访问：半个warp线程都访问一个数据

9 补白策略

    shared[tid]=global[tid];

    int number = shared[tid*16];

    int nRow = tid/16;

    int nColumn = tid%16;

    shared[nColumn*17+nRow] = global[tid];

    int number = shared[17*tid];

10 一次性访问全局存储器：数据的起始地址应为每个线程访问数据大小的16倍的整数倍

11 主机锁页存储器：cudaHostMalloc()分配。

　　不参与操作系统分页管理的存储空间，访问锁页文件不会耗费主机内存分页管理方面的开销。不会被操作系统放到硬盘的页面文件中，因此比访问普通的主机存储器更快。

12 计算能力2.x的GPU上面，每个SM有独立的一级缓存，有唯一的二级缓存

13 异步并发：

主机上的计算、

设备上的计算、

主机到设备上的传输、

设备到主机上的传输共同执行

14 设备存储器 类型是DRAM，动态随机存储器。使用它最高效的方式就是顺序读取。为了保证顺序：

__global__ static void sumof(int *pnNumber,int* pnResult,clock_t* pclock_tTime){

    const int tid = threadIdx.x;

    int nSum = 0;

    int i;

    clock_t clock_tStart;

    if(tid == 0) clock_tStart = clock();

    for(i = tid;i<DATA_SIZE;i+=THREAD_NUM){

        nSum += pnNumber[i]*pnNumber[i];

}

    pnResult[tid] = nSum;

    if(tid == 0)

        *pclock_tTime = clock()-clock_tStart;

}

每个block 在1.x的计算能力的GPU下，最多只有512的线程数

__global__ static void sumof(int *pnNumber,int* pnResult,clock_t* pclock_tTime){

    const int tid = threadIdx.x;

    const int bid = blockIdx.x;

    int nSum = 0;

    int i;

    clock_t clock_tStart;

    if(tid == 0) pclock_tTime[bid] = clock();

    for(i = bid*THREAD_NUM+tid;i<DATA_SIZE;i+=BLOCK_NUM*THREAD_NUM){

        nSum += pnNumber[i]*pnNumber[i];

}

    pnResult[bid*THREAD_NUM+tid] = nSum;

    if(tid == 0)

        *pclock_tTime[bid+BLOCK_NUM] = clock();

}

15 用缩减树避免bank冲突：

　　bank冲突指的是，一个warp内的线程同时访问一个bank列，导致串行读取数据

    noffset = THREAD_NUM/2;

    while(noffset > 0){

        if(tid < offset)

            nshared[tid] += nshared[tid+noffset];

    }

    noffset >>= 1;

    __syncthreads();

16 CPU有强大的分支预测、程序堆栈、循环优化等针对控制采取的复杂逻辑。

GPU相对简单，适合处理顺序的，单一的，少循环，少跳转的语句。

17 #progma unroll 5下面的程序循环5次

18 cuda中的同步

1》__syncthreads()同步

　　同一个warp内的线程总是被一同激活且一同被分配任务，因此不需要同步。因此最好把需要同步的线程放在同一个warp内，这样就减少了__syncthreads()的指令

2》__threadfence() __threadfence_block()同步

　　前者针对grid的所有线程，后者针对block内的所有线程。告知线程，全局存储器或共享存储器已经被改变

3》cudaThreadSynchronize() 主机与设备间的同步

　　在主机程序里同步线程。该函数以上的设备线程完成后，控制权才交给cpu

4》volatile关键字

　　使用这个关键字定义数组，设备会知道这个数组随时都会改变，就会自动重新读取数组（但是不能保证线程间读取的数据一致）

cuda编程知识普及的更多相关文章

CUDA编程
目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...
CUDA编程－（1）Tesla服务器Kepler架构和万年的HelloWorld
结合CUDA范例精解以及CUDA并行编程.由于正在学习CUDA,CUDA用的比较多,因此翻译一些个人认为重点的章节和句子,作为学习,程序将通过NVIDIA K40服务器得出结果.如果想通过本书进行CU ...
CUDA编程之快速入门
CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架构.做图像视觉领域的同学多多少少都会接触到CUDA,毕竟要做性能速度优化,CUDA是个很重要 ...
CUDA 编程的基本模式
reproduced from: http://www.cnblogs.com/muchen/p/6306747.html 前言本文将介绍 CUDA 编程的基本模式,所有 CUDA 程序都基于此模式 ...
CUDA编程之快速入门【转】
https://www.cnblogs.com/skyfsm/p/9673960.html CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架 ...
【并行计算-CUDA开发】CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起
掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系.由于作者能力有限,难免有疏漏,恳请读者批评 ...
57 CUDA 编程入门
0 引言由于毕设用到了Marvin,采用的是CUDA框架作为加速器,正好借此学习一下CUDA编程的一些基本知识. 各个版本的cuda的下载链接如下. https://developer.nvidia ...
CUDA学习笔记-1: CUDA编程概览
1.GPU编程模型及基本步骤 cuda程序的基本步骤如下: 在cpu中初始化数据将输入transfer到GPU中利用分配好的grid和block启动kernel函数将计算结果transfer到C ...
不同版本CUDA编程的问题
1 无法装上CUDA的toolkit 卸载所有的NVIDIA相关的app,包括NVIDIA的显卡驱动,然后重装. 2之前的文件打不开,one or more projects in the solut ...

随机推荐

机器学习：SVM（SVM 思想解决回归问题）
一.SVM 思想在解决回归问题上的体现回归问题的本质:找到一条直线或者曲线,最大程度的拟合数据点: 怎么定义拟合,是不同回归算法的关键差异: 线性回归定义拟合方式:让所有数据点到直线的 MSE 的值 ...
java restful response 万能类
import java.util.HashMap; import java.util.Map; public class ResponseData { private final String mes ...
版本管理 word 文档比较
1.因为公司还在用SVN, 2.而且还在用word 写文档, 3.而且 commit log 基本不写, 所以导致,想了解word文档改动, 很浪费时间!!!! 所以想快速了解word 改动, ...
C#高级参数out的使用
C#中有三个高级参数,分别是out,ref,params.本文章中先来介绍out参数的使用. out,用于在方法中返回多余值.(可以理解为让一个方法返回不同的类型值) 我们通过例子来理解例子的功能:用 ...
Mybatis的批处理以及执行Update返回行数为负数
项目中用到了批量更新. 在开发当中,可能经常会遇到批量处理这种情况,一般都再在java层面进行, 其本质是节省数据库连接打开关闭的的次数,占用更少的运行内存. 下面先记一下批处理映射吧: mybati ...
JDBC MySQL 实例之用户管理系统
1 Java 和 MySQL 怎么建立连接 2 通过Java怎么对数据库进行操作 package day01; import java.sql.Connection; import java.sql. ...
【转】nginx禁止访问某个文件和目录(文件夹)
nginx禁止访问所有.开头的隐藏文件设置 location ~* /.* {deny all;} nginx禁止访问目录, 例如:禁止访问path目录 location ^~ /path {deny ...
HDOJ 1164 Eddy's research
上一篇已经讲了,但是转载别人的很乱,这里自己根据blog里面写的思路,重新写过了一个程序 #include <iostream> #include <malloc.h> #in ...
算法Sedgewick第四版-第1章基础-2.1Elementary Sortss-007归并排序(自下而上)
一. 1. 2. 3. 二.代码 package algorithms.mergesort22; import algorithms.util.StdIn; import algorithms.uti ...
2用java代码实现冒泡排序算法（转载）
import java.util.Scanner; public class Maopao { public static void main(String[] args) { System.out. ...

cuda编程知识普及

cuda编程知识普及的更多相关文章

随机推荐

热门专题