GPU编程-Thread Hierarchy（3）

1. 如果处理的数据是二维的或者三维的，应该怎么办呢？

针对的，我们可以按照二维或者三维的方式，组织线程。老规矩，先代码、后解释

// Kernel definition

__global__ void MatAdd(float A[N][N], float B[N][N],

float C[N][N])

{

int i = threadIdx.x;

int j = threadIdx.y;

C[i][j] = A[i][j] + B[i][j];

}

int main()

{

...

// Kernel invocation with one block of N * N * 1 threads

int numBlocks = ;

dim3 threadsPerBlock(N, N);

MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);

...

}

线程可以一维、二维或者三维的方式，组织成Block，在上述代码中，我们指定有一个Block，这个Block按照NxN的二维结构进行组织。如果N就是矩阵相应的维度，那么上述代码块完成的功能就是矩阵对应元素相加。

2.受GPU资源的限制，每一个Block所含线程个数有限（一般情况下，最多为1024个），如果矩阵的维度超过了线程个数上限，是不是就计算不了大型矩阵的对应元素相加了呢？

答案是否定的。如果将Block看做一个基本组成单元，Block又可以按照一维、二维或者三维的形式组织成grid。Blcok、grid、thread的关系如下图所示

如果矩阵的维度超过了Block能够包含线程的上限，我们可采取以下方式应对（先代码，后解释）

// Kernel definition

__global__ void MatAdd(float A[N][N], float B[N][N],

float C[N][N])

{

int i = blockIdx.x * blockDim.x + threadIdx.x;

int j = blockIdx.y * blockDim.y + threadIdx.y;

if (i < N && j < N)

C[i][j] = A[i][j] + B[i][j];

}

int main()

{

...

// Kernel invocation

dim3 threadsPerBlock(, );

dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);

MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);

...

}

在上述代码中，N代表矩阵的维度，每一个Block按照16x16的二维结构组织，这样每一个Block只能够处理大型矩阵一个很小的patch。一般情况下，grid所有的thread是自然是顺序排列的（此时的Block索引可以理解为一种二级索引，一级索引指的是直接索引thread）。上述代码就是先将大型矩阵分解为Block，然后由Block里的线程完成具体的矩阵对应元素相加操作。

“The number of thread blocks in a grid is usually dictated by the size of the data being processed or the number of processors in the system, which it can greatly exceed.”

3. Block是并行执行的，假如所需Block数量超出GPU所能提供的Block的限制，会出现什么情况呢？

如上图所示，grid内的Block根据GPU的具体情况，选择顺序执行或者并行执行。

总结：线程的组织方式既能够匹配GPU硬件又能够处理大量数据，是一种很巧妙的安排。

GPU编程-Thread Hierarchy（3）的更多相关文章

GPU 编程入门到精通（五）之 GPU 程序优化进阶
博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识.鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程. 有志同道合的小伙 ...
GPU 编程入门到精通（四）之 GPU 程序优化
博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识,鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程.有志同道合的小伙伴 ...
GPU编程自学5 —— 线程协作
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
GPU编程自学4 —— CUDA核函数运行参数
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
GPU 编程入门到精通（三）之第一个 GPU 程序
博主因为工作其中的须要.開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识,鉴于之前没有接触过 GPU 编程,因此在这里特地学习一下 GPU 上面的编程.有志同道合的小伙伴 ...
GPU 编程相关简要摘录
GPU 编程可以称为异构编程,最近由于机器学习的火热,很多模型越来越依赖于GPU来进行加速运算,所以异构计算的位置越来越重要:异构编程,主要是指CPU+GPU或者CPU+其他设备(FPGA等)协同计算 ...
第一篇：GPU 编程技术的发展历程及现状
前言本文通过介绍 GPU 编程技术的发展历程,让大家初步地了解 GPU 编程,走进 GPU 编程的世界. 冯诺依曼计算机架构的瓶颈曾经,几乎所有的处理器都是以冯诺依曼计算机架构为基础的.该系统架构 ...
GPU编程--宏观理解篇（1）
GPU编程与CPU编程最大的不同可以概括为以下两点: "The same program is executed on many data elements in parallel" ...
Point : GPU编程的艺术！一切的历史！
Point: 渲染渲染,神奇的渲染!! ———————————————— 只要你走的足够远,你肯定能到达某个地方. 1"GPU编程" History ————————— //由于笔 ...

随机推荐

使用vue-cli构建多页面应用+vux（三）
上节中,我们成功的将vue-cli改造成了多入口,既然用了上简单的脚手架,那就希望用个合适的UI组件,去搜索了几个以后,最后选择了使用vux 贴上其vux的github地址 https://gith ...
第一篇 Rewrite规则简介
1.Rewirte主要的功能就是实现URL的跳转,它的正则表达式是基于Perl语言.可基于服务器级的(httpd.conf)和目录级的(.htaccess)两种方式.如果要想用到rewrite模块,必 ...
阿里云CentOS7.2服务器的安装
第一步:下载服务器系统ISO安装文件我使用的是阿里云的镜像:因为阿里云的服务在国内相对比较成熟服务器镜像下载如下:http://mirrors.aliyun.com/centos/7/isos/x ...
安装Vmware 以及 Vmware 中安装Ubuntu 以及其中问题？
在vmware中安装ubuntu 过程中安装窗口太小,无法继续下一步? 按住alt键,用鼠标拖动linux的安装窗体,向上移动就能看到下面的确定按钮. 如何安装Vmware-tools? 1.VM菜 ...
基于ABP框架的权限设置
需求:在界面展示中,"定向包管理","竞价管理","竞拍管理","发布定向资源","添加竞价资源", ...
微信小程序(组件demo)以及预览方法：（小程序交流群：604788754）
1. 获取微信小程序的 AppID 登录 https://mp.weixin.qq.com ,就可以在网站的"设置"-"开发者设置"中,查看到微信小程序的 Ap ...
OC中Foundation框架之NSDictionary、NSMutableDictionary
NSDictionary概述 NSDictionary的作用类似:通过一个key ,就能找到对应的value 同样 NSDictionary是不可变的,一旦初始化完毕,里面的内容就无法修改 NSDic ...
Python输入一个数字打印等腰三角形
要求用户输入一个数字,按照数字打印出等腰三角形思路 1,用户输入的数字为n代表一共有多少行 2,使用一个循环带两个for循环,第一层循环是循环行数,第二层两个平行for循环一个打印空格一个打印*号 ...
hadoop集群中客户端修改、删除文件失败
这是因为hadoop集群在启动时自动进入安全模式查看安全模式状态:hadoop fs –safemode get 进入安全模式状态:hadoop fs –safemode enter 退出安全模式状 ...
Linux防火墙的关闭和开启
1) 重启后生效开启: chkconfig iptables on 关闭: chkconfig iptables off 2) 即时生效,重启后失效开启: service iptables sta ...

GPU编程-Thread Hierarchy（3）

GPU编程-Thread Hierarchy（3）的更多相关文章

随机推荐

热门专题