gpu的架构分为streaming multiprocessors

每个streaming multiprocessors(SM)又能分步骤执行很多threads,单个SM内部能同时执行的threads叫做warp。一个warp能同时操作16个单精度浮点数/8个双精度(tesla),或者32个单精度浮点数/16个双精度浮点数(feimi)。

单个SM内部有local memory和16kb大小的share memory,后者是在做计算的时候要尽量利用好的东西。

根据gpu的架构,做cuda计算的时候基本上是这么一个流程

先把目标矩阵分块,8*8或者16*16等,具体多大要看所用gpu的配置

分块完以后,gpu会把每个块调度到每个SM上去执行。SM执行的时候按照warp大小起线程,直到运算完成。

资源限制:

每个GPU必须有16个以上的block(对应16个SM)。而每个SM最多只能有8个block(对应8个flag位)。

算法举例

拿矩阵乘法C=A*B举例,

在不使用share memory的时候,每计算C中的一个值就需要2*N*N的数值。所以不使用BLOCK算法的时候,一个N*N的矩阵算一次就需要读2*N^4的数据,起了N^2的threads。每次要读2*N的数,这个操作数就是2N。带宽显然不够。这是非常慢的。在使用share memory的时候,每计算BLOCK_SIZE*BLOCK_SIZE中的值就需要读2*BLOCK_SIZE*BLOCK_SIZE的数据,当BLOCK_SIZE是16的时候,那就是2k,16kb的share memory能允许8个block。

当BLOCK_SIZE是32的时候,大小是8k,就是2个block。

那回顾一下刚才的数据,我们能知道,大小是32*32的block在16kbshare memory的时候对SM的利用率不高,(只能放2个block),而大小是16*16的block在16kb sharememory的时候对SM的利用率高(到了8个block,到顶了)。

为什么不用2个block而是8个block呢?

因为在从local memory读到share memory的是要时间的,gpu可以在这一个warp读取share memory的时候切换到别的warp 让他们也读share memory。还记得吗?一个warp是16个线程,SM能同时保存8个BLOCK的状态。对于32*32这个大小的block,对于SM的调度没有利用好,所有线程全都卡在读取内存上了。

对于16*16的block,每次要读2*256=512个数,这256个数的操作是256*16*2=8192个浮点操作。这时带宽就足够了。

对于feimi架构来说,share memory翻了3倍成了48kb

BLOCK_SIZE等于16的时候,就是24个block,BLOCK_SIZE=32的时候就是6个block。gpu读取share memory大概要20个cycle。一个32*32的block有1024个线程,一个warp 32个线程。这样就至少32个cycle过去了,足够前面的线程读完。

而对于BLOCK_SIZE等于16的时候,24个block对于一个SM来说太多了(同时只能调度8个).

ps:

在调试矩阵乘法的时候掉进坑里了……给每个矩阵赋值10.0*i+j,两个矩阵互相乘。当矩阵比较小的时候100*100及以下,一点问题都没有。大到1000*1000的开始出现计算错误。找了大半天都没找出个所以然来。突然发现结果比较长,一数位数,都快7-8位了,原来是过了单精度浮点数的有效位数了。

cuda计算的分块的更多相关文章

  1. CUDA计算矩阵相乘

    1.最简单的 kernel 函数 __global__ void MatrixMulKernel( float* Md, float* Nd, float* Pd, int Width) { int ...

  2. CUDA 计算线程索引的一般公式

    CUDA thread index: int blockId = blockIdx.z * (gridDim.x*gridDim.y)                    + blockIdx.y ...

  3. BZOJ 4765 普通计算姬 (分块 + BIT)

    4765: 普通计算姬 Time Limit: 30 Sec  Memory Limit: 256 MBSubmit: 1547  Solved: 329[Submit][Status][Discus ...

  4. [BZOJ4765]普通计算姬(分块+树状数组)

    4765: 普通计算姬 Time Limit: 30 Sec  Memory Limit: 256 MBSubmit: 1725  Solved: 376[Submit][Status][Discus ...

  5. [bzoj4765]普通计算姬——分块

    Brief Description 给定一棵n个节点的带权树,节点编号为1到n,以root为根,设sum[p]表示以点p为根的这棵子树中所有节点的权 值和.支持下列两种操作: 1 给定两个整数u,v, ...

  6. CUDA 计算pi (π)

    通过简单的程序设计熟练CUDA的使用步骤 下面是cuda代码及相关注释 #include <stdio.h> #include <iostream> #include < ...

  7. BZOJ 4765: 普通计算姬 [分块 树状数组 DFS序]

    传送门 题意: 一棵树,支持单点修改和询问以$[l,r]$为根的子树的权值和的和 只有我这种不会分块的沙茶不会做这道题吗? 说一点总结: 子树和当然上$dfs$序了,询问原序列一段区间所有子树和,对原 ...

  8. BZOJ 4765: 普通计算姬 (分块+树状数组)

    传送门 解题思路 树上的分块题,,对于修改操作,每次修改只会对他父亲到根这条链上的元素有影响:对于查询操作,每次查询[l,r]内所有元素的子树,所以就考虑dfn序,进标记一次,出标记一次,然后子树就是 ...

  9. CUDA C Best Practices Guide 在线教程学习笔记 Part 1

    0. APOD过程 ● 评估.分析代码运行时间的组成,对瓶颈进行并行化设计.了解需求和约束条件,确定应用程序的加速性能改善的上限. ● 并行化.根据原来的代码,采用一些手段进行并行化,例如使用现有库, ...

随机推荐

  1. Java8 新特性 Lambda学习

    import java.util.ArrayList;import java.util.Collections;import java.util.IntSummaryStatistics;import ...

  2. Java浮点数float,bigdecimal和double精确计算的精度误差问题总结

    (转)Java浮点数float,bigdecimal和double精确计算的精度误差问题总结 1.float整数计算误差 案例:会员积分字段采用float类型,导致计算会员积分时,7位整数的数据计算结 ...

  3. nginx php-fpm安装配置

    nginx本身不能处理PHP,它只是个web服务器,当接收到请求后,如果是php请求,则发给php解释器处理,并把结果返回给客户端. nginx一般是把请求发fastcgi管理进程处理,fascgi管 ...

  4. Xocde4与Xcode3的模板比较

    XCode 4.2.1 项目的模版截图: Single View Application This template provides a starting point for an applicat ...

  5. iOS.Performance-trick-presentViewController-is-so-slow-in-didSelectRowAtIndexPath

    presentViewController is so slow in "tableView:didSelectRowAtIndexPath:" Use Case: 在UITabl ...

  6. POJ 3057 Evacuation 二分图匹配

    每个门每个时间只能出一个人,那就把每个门拆成多个,对应每个时间. 不断增加时间,然后增广,直到最大匹配. //#pragma comment(linker, "/STACK:10240000 ...

  7. python学习之路-day6-面向对象

    一.面向对象学习 特性 class类 一个类即是对一类拥有相同属性的对象的抽象.蓝图.原型.在类中定义了这些对象的都具备的属性.共同的方法. 面向过程编程和面向对象编程: 面向过程编程:使用一系列的指 ...

  8. PHP使用内置函数生成图片的方法详解

    原文地址:http://www.poluoluo.com/jzxy/201605/475301.html 本文实例讲述了PHP使用内置函数生成图片的方法.分享给大家供大家参考,具体如下: 第一步:创建 ...

  9. SVN系统的几个术语

    SVN系统的几个术语 User:用户,可以远程连接到SVN服务器的权限实体. User Group:用户组,用于管理一组权限相同的用户. Repository:版本库,在服务器端保存着的项目中所有的文 ...

  10. Linux下修改mysql密码

    # /etc/init.d/mysql stop# mysqld_safe --user=mysql --skip-grant-tables --skip-networking &# mysq ...